StevenLimcorn commited on
Commit
860f760
1 Parent(s): 2f82f82

Modified Document Search with 10000 samples, outputs accordion

Browse files
__pycache__/model.cpython-311.pyc CHANGED
Binary files a/__pycache__/model.cpython-311.pyc and b/__pycache__/model.cpython-311.pyc differ
 
__pycache__/utils.cpython-311.pyc CHANGED
Binary files a/__pycache__/utils.cpython-311.pyc and b/__pycache__/utils.cpython-311.pyc differ
 
get_documents.ipynb CHANGED
@@ -40,16 +40,16 @@
40
  },
41
  {
42
  "cell_type": "code",
43
- "execution_count": 17,
44
  "metadata": {},
45
  "outputs": [],
46
  "source": [
47
- "sample = first_element.sample(n=100).reset_index()"
48
  ]
49
  },
50
  {
51
  "cell_type": "code",
52
- "execution_count": 18,
53
  "metadata": {},
54
  "outputs": [],
55
  "source": [
@@ -58,426 +58,7 @@
58
  },
59
  {
60
  "cell_type": "code",
61
- "execution_count": 19,
62
- "metadata": {},
63
- "outputs": [
64
- {
65
- "data": {
66
- "text/plain": [
67
- "{'id': ['1320109',\n",
68
- " '2128563',\n",
69
- " '602078',\n",
70
- " '1312039',\n",
71
- " '1716650',\n",
72
- " '650973',\n",
73
- " '1241831',\n",
74
- " '1307796',\n",
75
- " '518874',\n",
76
- " '2402196',\n",
77
- " '2803307',\n",
78
- " '1337769',\n",
79
- " '3107113',\n",
80
- " '1769200',\n",
81
- " '1217986',\n",
82
- " '201149',\n",
83
- " '3877456',\n",
84
- " '827458',\n",
85
- " '2529947',\n",
86
- " '641284',\n",
87
- " '1318076',\n",
88
- " '2612112',\n",
89
- " '3207061',\n",
90
- " '3077418',\n",
91
- " '349174',\n",
92
- " '2813600',\n",
93
- " '282275',\n",
94
- " '1055864',\n",
95
- " '1486182',\n",
96
- " '57606',\n",
97
- " '142415',\n",
98
- " '2108615',\n",
99
- " '402906',\n",
100
- " '1191629',\n",
101
- " '228940',\n",
102
- " '1327038',\n",
103
- " '3291989',\n",
104
- " '2983889',\n",
105
- " '1212225',\n",
106
- " '113966',\n",
107
- " '1407640',\n",
108
- " '281562',\n",
109
- " '992279',\n",
110
- " '2884458',\n",
111
- " '267870',\n",
112
- " '3252481',\n",
113
- " '40606',\n",
114
- " '3653774',\n",
115
- " '1737449',\n",
116
- " '3846339',\n",
117
- " '3190102',\n",
118
- " '79661',\n",
119
- " '3228000',\n",
120
- " '2964073',\n",
121
- " '1127983',\n",
122
- " '1887059',\n",
123
- " '909288',\n",
124
- " '3588112',\n",
125
- " '714331',\n",
126
- " '2090710',\n",
127
- " '3055489',\n",
128
- " '970067',\n",
129
- " '1516823',\n",
130
- " '434164',\n",
131
- " '1264499',\n",
132
- " '1042507',\n",
133
- " '2073166',\n",
134
- " '777012',\n",
135
- " '378488',\n",
136
- " '2450394',\n",
137
- " '1052854',\n",
138
- " '2552814',\n",
139
- " '3365283',\n",
140
- " '3011075',\n",
141
- " '2866512',\n",
142
- " '835517',\n",
143
- " '280986',\n",
144
- " '56591',\n",
145
- " '1225396',\n",
146
- " '752546',\n",
147
- " '337576',\n",
148
- " '3133639',\n",
149
- " '1891996',\n",
150
- " '1425468',\n",
151
- " '152557',\n",
152
- " '2873040',\n",
153
- " '1230133',\n",
154
- " '830891',\n",
155
- " '2537599',\n",
156
- " '3338588',\n",
157
- " '2499927',\n",
158
- " '1229015',\n",
159
- " '2557903',\n",
160
- " '3169965',\n",
161
- " '661835',\n",
162
- " '1232890',\n",
163
- " '703976',\n",
164
- " '1208382',\n",
165
- " '667087',\n",
166
- " '2487243'],\n",
167
- " 'url': ['https://id.wikipedia.org/wiki/Pseudoeriphus%20robustus',\n",
168
- " 'https://id.wikipedia.org/wiki/My%20Own%20Swordsman',\n",
169
- " 'https://id.wikipedia.org/wiki/SDS%20Cahaya%20Sakti',\n",
170
- " 'https://id.wikipedia.org/wiki/Plociella',\n",
171
- " 'https://id.wikipedia.org/wiki/Voivodat',\n",
172
- " 'https://id.wikipedia.org/wiki/Puri%2C%20Raren%20Batuah%2C%20Barito%20Timur',\n",
173
- " 'https://id.wikipedia.org/wiki/Lecania%20leucopyga',\n",
174
- " 'https://id.wikipedia.org/wiki/Leuronotus',\n",
175
- " 'https://id.wikipedia.org/wiki/Stadion%20Tridadi',\n",
176
- " 'https://id.wikipedia.org/wiki/Dealey%20Plaza',\n",
177
- " 'https://id.wikipedia.org/wiki/Menkav-3%20Mar',\n",
178
- " 'https://id.wikipedia.org/wiki/Carneades%20championi',\n",
179
- " 'https://id.wikipedia.org/wiki/Terminal%20Ciakar',\n",
180
- " 'https://id.wikipedia.org/wiki/Deglobalisasi',\n",
181
- " 'https://id.wikipedia.org/wiki/Daftar%20asteroid%20Apollo',\n",
182
- " 'https://id.wikipedia.org/wiki/Dalavia',\n",
183
- " 'https://id.wikipedia.org/wiki/Dampak%20pandemi%20Covid-19%20terhadap%20pendidikan%20perempuan',\n",
184
- " 'https://id.wikipedia.org/wiki/Kejadian%2047',\n",
185
- " 'https://id.wikipedia.org/wiki/Holden%20Commodore',\n",
186
- " 'https://id.wikipedia.org/wiki/Keutapang%2C%20Pirak%20Timur%2C%20Aceh%20Utara',\n",
187
- " 'https://id.wikipedia.org/wiki/Distenia%20stenola',\n",
188
- " 'https://id.wikipedia.org/wiki/Hukum%20gas%20gabungan',\n",
189
- " 'https://id.wikipedia.org/wiki/Sequana',\n",
190
- " 'https://id.wikipedia.org/wiki/Ikuko%20Tani',\n",
191
- " 'https://id.wikipedia.org/wiki/Eirik%20Glambek%20B%C3%B8e',\n",
192
- " 'https://id.wikipedia.org/wiki/ISO%203166-2%3ACC',\n",
193
- " 'https://id.wikipedia.org/wiki/Jetfire',\n",
194
- " 'https://id.wikipedia.org/wiki/Wimilio%20Vink',\n",
195
- " 'https://id.wikipedia.org/wiki/Suttungr%20%28satelit%29',\n",
196
- " 'https://id.wikipedia.org/wiki/I%20Nyoman%20Nuarta',\n",
197
- " 'https://id.wikipedia.org/wiki/Clapar%2C%20Subah%2C%20Batang',\n",
198
- " 'https://id.wikipedia.org/wiki/Boling%20pada%20Pekan%20Olahraga%20Nasional%20XIX%20%E2%80%93%20Semua%20nomor%20putri',\n",
199
- " 'https://id.wikipedia.org/wiki/Mitsuru%20Karahashi',\n",
200
- " 'https://id.wikipedia.org/wiki/Daud%20Rasyidi',\n",
201
- " 'https://id.wikipedia.org/wiki/Runaway%20%28disambiguasi%29',\n",
202
- " 'https://id.wikipedia.org/wiki/Antodice%20inscripta',\n",
203
- " 'https://id.wikipedia.org/wiki/Muircheartach%20mac%20Donnchadh%20mac%20Murchadha%20Caomh%C3%A1nach',\n",
204
- " 'https://id.wikipedia.org/wiki/Maha-Sangram',\n",
205
- " 'https://id.wikipedia.org/wiki/2011%20AS26',\n",
206
- " 'https://id.wikipedia.org/wiki/Belendung%2C%20Cibogo%2C%20Subang',\n",
207
- " 'https://id.wikipedia.org/wiki/Johann%20Baptist%20Allgaier',\n",
208
- " 'https://id.wikipedia.org/wiki/Penang%20Monorail',\n",
209
- " 'https://id.wikipedia.org/wiki/Shahri%20Buzurg%2C%20Badakhshan',\n",
210
- " 'https://id.wikipedia.org/wiki/Fridhemsplan%20%28Stockholms%20tunnelbana%29',\n",
211
- " 'https://id.wikipedia.org/wiki/Bayan-raja%20australia',\n",
212
- " 'https://id.wikipedia.org/wiki/Hana%20Brejchov%C3%A1',\n",
213
- " 'https://id.wikipedia.org/wiki/Asam%20palmitat',\n",
214
- " 'https://id.wikipedia.org/wiki/EFishery',\n",
215
- " 'https://id.wikipedia.org/wiki/Madulain',\n",
216
- " 'https://id.wikipedia.org/wiki/Berbalas%20Kejam',\n",
217
- " 'https://id.wikipedia.org/wiki/Hubungan%20Rusia%20dengan%20Serbia',\n",
218
- " 'https://id.wikipedia.org/wiki/Ad%20Gentes',\n",
219
- " 'https://id.wikipedia.org/wiki/Mehdi%20Karroubi',\n",
220
- " 'https://id.wikipedia.org/wiki/Menara%20Shukhov%20di%20Polibino',\n",
221
- " 'https://id.wikipedia.org/wiki/Tiworo%20Selatan%2C%20Muna%20Barat',\n",
222
- " 'https://id.wikipedia.org/wiki/RS-26%20Rubezh',\n",
223
- " 'https://id.wikipedia.org/wiki/Passembuk%2C%20Mehalaan%2C%20Mamasa',\n",
224
- " 'https://id.wikipedia.org/wiki/Warudoyong%20%28disambiguasi%29',\n",
225
- " 'https://id.wikipedia.org/wiki/Hotel%20Disney%20Ambassador',\n",
226
- " 'https://id.wikipedia.org/wiki/Pemilihan%20umum%20Majelis%20Legislatif%20Tamil%20Nadu%201977',\n",
227
- " 'https://id.wikipedia.org/wiki/Katedral%20Padova',\n",
228
- " 'https://id.wikipedia.org/wiki/Jalur%20trem%20Karawang%E2%80%93Cikampek',\n",
229
- " 'https://id.wikipedia.org/wiki/Larinia%20minor',\n",
230
- " 'https://id.wikipedia.org/wiki/Daun%20pisang',\n",
231
- " 'https://id.wikipedia.org/wiki/Phytomyza%20nigritella',\n",
232
- " 'https://id.wikipedia.org/wiki/%C3%89tienne%20Capoue',\n",
233
- " 'https://id.wikipedia.org/wiki/Jajanan%20jalanan',\n",
234
- " 'https://id.wikipedia.org/wiki/The%20Big%20Bang%20Theory',\n",
235
- " 'https://id.wikipedia.org/wiki/Quake',\n",
236
- " 'https://id.wikipedia.org/wiki/Annaliza',\n",
237
- " 'https://id.wikipedia.org/wiki/Perusahaan%20Hindia%20Timur%20Prancis',\n",
238
- " 'https://id.wikipedia.org/wiki/Vaughn%20Walker',\n",
239
- " 'https://id.wikipedia.org/wiki/Syamr%20bin%20Dzil%20Jausyan',\n",
240
- " 'https://id.wikipedia.org/wiki/Sulaeman%20Bandjarnahor',\n",
241
- " 'https://id.wikipedia.org/wiki/Begonia%20pumila',\n",
242
- " 'https://id.wikipedia.org/wiki/SMP%20Negeri%201%20Temanggung',\n",
243
- " 'https://id.wikipedia.org/wiki/Partai%20Konservatif%20%28Uganda%29',\n",
244
- " 'https://id.wikipedia.org/wiki/Pascal%20Obispo',\n",
245
- " 'https://id.wikipedia.org/wiki/2010%20JH87',\n",
246
- " 'https://id.wikipedia.org/wiki/Jo%20Kwon',\n",
247
- " 'https://id.wikipedia.org/wiki/Railaco',\n",
248
- " 'https://id.wikipedia.org/wiki/Shashadhar%20Acharya',\n",
249
- " 'https://id.wikipedia.org/wiki/Gao%20Yuanyuan',\n",
250
- " 'https://id.wikipedia.org/wiki/Allarmont',\n",
251
- " 'https://id.wikipedia.org/wiki/Terry%20%28album%29',\n",
252
- " 'https://id.wikipedia.org/wiki/Senecio%20pogonias',\n",
253
- " 'https://id.wikipedia.org/wiki/Trichoncyboides%20simoni',\n",
254
- " 'https://id.wikipedia.org/wiki/SMP%20Negeri%20100%20Jakarta',\n",
255
- " 'https://id.wikipedia.org/wiki/Uhha-Ziti',\n",
256
- " 'https://id.wikipedia.org/wiki/Yoshiki%20Sato',\n",
257
- " 'https://id.wikipedia.org/wiki/Makam%20susun',\n",
258
- " 'https://id.wikipedia.org/wiki/Lepthyphantes%20altissimus',\n",
259
- " 'https://id.wikipedia.org/wiki/Stasiun%20Kampus%20Universitas%20Tenggara%20Chengxian',\n",
260
- " 'https://id.wikipedia.org/wiki/Milan%20%C5%A0kriniar',\n",
261
- " 'https://id.wikipedia.org/wiki/Cassandra%20Harris',\n",
262
- " 'https://id.wikipedia.org/wiki/Entelecara%20media',\n",
263
- " 'https://id.wikipedia.org/wiki/Pembakaran%20buku',\n",
264
- " 'https://id.wikipedia.org/wiki/2012%20BQ92',\n",
265
- " 'https://id.wikipedia.org/wiki/Kalu-Kalukuang%2C%20Liukang%20Kalmas%2C%20Pangkajene%20dan%20Kepulauan',\n",
266
- " 'https://id.wikipedia.org/wiki/Cawan%20penguap'],\n",
267
- " 'title': ['Pseudoeriphus robustus',\n",
268
- " 'My Own Swordsman',\n",
269
- " 'SDS Cahaya Sakti',\n",
270
- " 'Plociella',\n",
271
- " 'Voivodat',\n",
272
- " 'Puri, Raren Batuah, Barito Timur',\n",
273
- " 'Lecania leucopyga',\n",
274
- " 'Leuronotus',\n",
275
- " 'Stadion Tridadi',\n",
276
- " 'Dealey Plaza',\n",
277
- " 'Menkav-3 Mar',\n",
278
- " 'Carneades championi',\n",
279
- " 'Terminal Ciakar',\n",
280
- " 'Deglobalisasi',\n",
281
- " 'Daftar asteroid Apollo',\n",
282
- " 'Dalavia',\n",
283
- " 'Dampak pandemi Covid-19 terhadap pendidikan perempuan',\n",
284
- " 'Kejadian 47',\n",
285
- " 'Holden Commodore',\n",
286
- " 'Keutapang, Pirak Timur, Aceh Utara',\n",
287
- " 'Distenia stenola',\n",
288
- " 'Hukum gas gabungan',\n",
289
- " 'Sequana',\n",
290
- " 'Ikuko Tani',\n",
291
- " 'Eirik Glambek Bøe',\n",
292
- " 'ISO 3166-2:CC',\n",
293
- " 'Jetfire',\n",
294
- " 'Wimilio Vink',\n",
295
- " 'Suttungr (satelit)',\n",
296
- " 'I Nyoman Nuarta',\n",
297
- " 'Clapar, Subah, Batang',\n",
298
- " 'Boling pada Pekan Olahraga Nasional XIX – Semua nomor putri',\n",
299
- " 'Mitsuru Karahashi',\n",
300
- " 'Daud Rasyidi',\n",
301
- " 'Runaway (disambiguasi)',\n",
302
- " 'Antodice inscripta',\n",
303
- " 'Muircheartach mac Donnchadh mac Murchadha Caomhánach',\n",
304
- " 'Maha-Sangram',\n",
305
- " '2011 AS26',\n",
306
- " 'Belendung, Cibogo, Subang',\n",
307
- " 'Johann Baptist Allgaier',\n",
308
- " 'Penang Monorail',\n",
309
- " 'Shahri Buzurg, Badakhshan',\n",
310
- " 'Fridhemsplan (Stockholms tunnelbana)',\n",
311
- " 'Bayan-raja australia',\n",
312
- " 'Hana Brejchová',\n",
313
- " 'Asam palmitat',\n",
314
- " 'EFishery',\n",
315
- " 'Madulain',\n",
316
- " 'Berbalas Kejam',\n",
317
- " 'Hubungan Rusia dengan Serbia',\n",
318
- " 'Ad Gentes',\n",
319
- " 'Mehdi Karroubi',\n",
320
- " 'Menara Shukhov di Polibino',\n",
321
- " 'Tiworo Selatan, Muna Barat',\n",
322
- " 'RS-26 Rubezh',\n",
323
- " 'Passembuk, Mehalaan, Mamasa',\n",
324
- " 'Warudoyong (disambiguasi)',\n",
325
- " 'Hotel Disney Ambassador',\n",
326
- " 'Pemilihan umum Majelis Legislatif Tamil Nadu 1977',\n",
327
- " 'Katedral Padova',\n",
328
- " 'Jalur trem Karawang–Cikampek',\n",
329
- " 'Larinia minor',\n",
330
- " 'Daun pisang',\n",
331
- " 'Phytomyza nigritella',\n",
332
- " 'Étienne Capoue',\n",
333
- " 'Jajanan jalanan',\n",
334
- " 'The Big Bang Theory',\n",
335
- " 'Quake',\n",
336
- " 'Annaliza',\n",
337
- " 'Perusahaan Hindia Timur Prancis',\n",
338
- " 'Vaughn Walker',\n",
339
- " 'Syamr bin Dzil Jausyan',\n",
340
- " 'Sulaeman Bandjarnahor',\n",
341
- " 'Begonia pumila',\n",
342
- " 'SMP Negeri 1 Temanggung',\n",
343
- " 'Partai Konservatif (Uganda)',\n",
344
- " 'Pascal Obispo',\n",
345
- " '2010 JH87',\n",
346
- " 'Jo Kwon',\n",
347
- " 'Railaco',\n",
348
- " 'Shashadhar Acharya',\n",
349
- " 'Gao Yuanyuan',\n",
350
- " 'Allarmont',\n",
351
- " 'Terry (album)',\n",
352
- " 'Senecio pogonias',\n",
353
- " 'Trichoncyboides simoni',\n",
354
- " 'SMP Negeri 100 Jakarta',\n",
355
- " 'Uhha-Ziti',\n",
356
- " 'Yoshiki Sato',\n",
357
- " 'Makam susun',\n",
358
- " 'Lepthyphantes altissimus',\n",
359
- " 'Stasiun Kampus Universitas Tenggara Chengxian',\n",
360
- " 'Milan Škriniar',\n",
361
- " 'Cassandra Harris',\n",
362
- " 'Entelecara media',\n",
363
- " 'Pembakaran buku',\n",
364
- " '2012 BQ92',\n",
365
- " 'Kalu-Kalukuang, Liukang Kalmas, Pangkajene dan Kepulauan',\n",
366
- " 'Cawan penguap'],\n",
367
- " 'text': ['Pseudoeriphus robustus adalah spesies kumbang tanduk panjang yang tergolong famili Cerambycidae. Spesies ini juga merupakan bagian dari genus Pseudoeriphus, ordo Coleoptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
368
- " 'My Own Swordsman () adalah sebuah film komedi aksi periode Tiongkok 2011 yang disutradarai oleh Jing Shang. Film tersebut dirilis pada 26 Januari 2011.',\n",
369
- " 'SDS Cahaya Sakti atau nama lengkapnya Sekolah Dasar Swasta Cahaya Sakti merupakan sebuah Sekolah Dasar Swasta Swasta yang terletak di Jln.Oto Iskandardinata I.No.11, Jakarta Timur, Indonesia.',\n",
370
- " 'Plociella adalah genus kumbang tanduk panjang yang tergolong famili Cerambycidae. Genus ini juga merupakan bagian dari ordo Coleoptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
371
- " 'Voivodat () adalah daerah yang dikepalai oleh seorang Voivoda (gubernur atau wali negeri) di sejumlah negara Eropa Tengah dan Timur. Voivodat sudah ada sejak Abad Pertengahan di Polandia, Hungaria, Lituania, Latvia, Ukraina, Rusia, dan Serbia. Voivodat setara dengan kadipaten di negara-negara Eropa Barat pada Abad Pertengahan, demikian pula jabatan voivoda setara dengan jabatan adipati. Gelar dan nama pembagian administratif lain di Eropa Timur yang setara dengan voivoda dan voivodat adalah Ban (bojan, vojin, atau bayan) dan Banat (bánság, atau banovina).',\n",
372
- " 'Puri adalah salah satu desa di Kecamatan Raren Batuah, Kabupaten Barito Timur, Provinsi Kalimantan Tengah, Indonesia.',\n",
373
- " 'Lecania leucopyga adalah spesies lalat yang tergolong famili Asilidae. Lalat ini juga merupakan bagian dari genus Lecania, ordo Diptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
374
- " 'Leuronotus adalah genus kumbang tanduk panjang yang berasal dari famili Cerambycidae. Genus ini juga merupakan bagian dari ordo Coleoptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
375
- " 'Stadion Tridadi merupakan stadion serba guna di Sleman, Indonesia. Saat ini sebagian besar cocok digunakan untuk sepak bola dan digunakan sebagai salah satu tempat latihan untuk PSS Sleman. Stadion ini memiliki kapasitas 12.000 orang.',\n",
376
- " 'Dealey Plaza , di distrik bersejarah West End, pusat kota Dallas, Texas (AS), adalah tempat dari pembunuhan John F. Kennedy pada 22 November 1963. Distrik Bersejarah Dealey Plaza diangkat menjadi Mercu Tanda Sejarah Nasional pada 1993 untuk menyajikan Dealey Plaza, jalan arah kanan, dan bangunan-bangunan dan struktur-struktur dari alun-alun tersebut yang tampak dari tempat pembunuhan, yang diidentifikasikan sebagai lokasi-lokasi saksi mata atau sebagai kemungkinan lokasi-lokasi pembunuh.',\n",
377
- " 'Resimen Kavaleri-3 Marinir atau (Menkav-3 Mar) merupakan satuan setingkat Brigade dibawah kendali Pasukan Marinir 3. Menkav-3 di perkuat dengan Tank Amfibi PT-76M dan Tank Amfibi BTR-50PM.',\n",
378
- " 'Carneades championi adalah spesies kumbang tanduk panjang yang tergolong famili Cerambycidae. Spesies ini juga merupakan bagian dari genus Carneades, ordo Coleoptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
379
- " 'Terminal Ciakar merupakan terminal penumpang tipe A dan merupakan terminal induk terbesar di Kabupaten Sumedang. Terminal ini terletak di Jalan Prabu Raja Agung Nomor 10, Kelurahan Situ, Kecamatan Sumedang Utara, Kabupaten Sumedang. Terminal ini merupakan terminal transit penumpang, dimana banyak trayek bus antarkota bersinggungan melewati area Sumedang, diantaranya Wado - Jabodetabek, Bandung - Cirebon, Bandung - Jawa Tengah dan Bandung - Jawa Timur. Terminal ini melayani beberapa moda transportasi umum seperti angkutan kota, angkutan pedesaan, angkutan antarkota dalam provinsi (AKDP) dan angkutan antarkota antarprovinsi (AKAP).',\n",
380
- " 'Deglobalisasi adalah proses berkurangnya saling ketergantungan dan integrasi antara unit-unit politik di seluruh dunia, biasanya negara bangsa. Istilah ini sering digunakan untuk menyebut periode sejarah ketika perdagangan ekonomi dan investasi antarnegara menurun. Deglobalisasi merupakan kebalikan dari globalisasi, proses meningkatnya integrasi antarunit politik seiring waktu. Deglobalisasi umumnya berlangsung di antara periode globalisasi.',\n",
381
- " 'Berikut adalah daftar asteroid Apollo:',\n",
382
- " 'Dalavia merupakan sebuah maskapai penerbangan yang berbasis di Khabarovsk, Rusia. Maskapai ini mengoperasikan penerbangan biasa dan charter di Rusia, dan penerbangan internasional menuju Asia. Basis utamnaya terletak di Bandar Udara Khabarovsk Novy.',\n",
383
- " 'Dampak pandemi COVID-19 terhadap pendidikan perempuan mempunyai dampak yang signifikan di seluruh dunia. Selama bertahun-tahun, kesenjangan pendidikan antara anak laki-laki dan perempuan telah menjadi isu yang sangat penting. Hal ini disebabkan oleh berbagai faktor, termasuk norma sosial yang menekankan peran tradisional gender dan diskriminasi terhadap perempuan dalam sistem pendidikan.',\n",
384
- " 'Kejadian 47 (disingkat Kej 47) adalah pasal keempat puluh tujuh Kitab Kejadian dalam Alkitab Ibrani dan Perjanjian Lama di Alkitab Kristen. Termasuk dalam kumpulan kitab Taurat yang disusun oleh Musa. Pasal ini berisi riwayat Yakub dan keluarganya di Mesir.',\n",
385
- " 'Holden Commodore adalah kendaraan sedan yang diproduksi pada tahun 1978 hingga 2017 oleh Holden (Perusahaan otomotif asal Australia). Produksi mobil ini dihentikan pada 20 Oktober 2017.',\n",
386
- " 'Keutapang merupakan salah satu gampong yang ada di kecamatan Pirak Timur, Kabupaten Aceh Utara, provinsi Aceh, Indonesia.',\n",
387
- " 'Distenia stenola adalah spesies kumbang tanduk panjang yang tergolong famili Cerambycidae. Spesies ini juga merupakan bagian dari genus Distenia, ordo Coleoptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
388
- " 'Hukum gas gabungan adalah suatu hukum gas yang menggabungkan hukum Charles, hukum Boyle, dan hukum Gay-Lussac. Tidak ada pendiri resmi untuk hukum ini; hukum ini hanyalah sebuah penggabungan dari tiga hukum yang ditemukan sebelumnya. Hukum-hukum ini masing-masing menghubungkan satu variabel termodinamika ke variabel matematis lain sementara menjaga variabel yang lain tetap konstan. Hukum Charles menyatakan bahwa volume dan suhu berbanding lurus satu sama lain selama tekanan tetap konstan. Hukum Boyle menegaskan bahwa tekanan dan volume berbanding terbalik satu sama lain pada suhu tetap. Akhirnya, hukum Gay-Lussac memperkenalkan proporsionalitas langsung antara suhu dan tekanan selama hal tersebut berlangsung pada volume konstan. Ketergantungan antar variabel ini ditunjukkan dalam hukum gas gabungan, yang dengan jelas menyatakan bahwa:',\n",
389
- " 'Sequana adalah salah satu dewi dalam keyakinan agama Galia-Romawi. Ia diyakini sebagai penguasa sungai Seine beserta mata air yang berada di bagian hulu sungai Seine. Dewi Sequana dipuja oleh suku Galia dari kalangan Sequani.',\n",
390
- " 'adalah seorang aktris, serta pengisi suara asal Tōkyō ia dibawah naungan Mausu Promotion. Ia dikenal setelah mengisi berbagai karakter terkenal seperti Tanoshii Moomin Ikka (sebagai Moominmamma), SpongeBob SquarePants (sebagai Patrick Star) dan menjadi dubber Jepang untuk Harry Potter (sebagai Minerva McGonagall).',\n",
391
- " 'Eirik Glambek Bøe (lahir di Bergen, Norwegia, 25 Oktober 1975) merupakan anggota grup musik Kings of Convenience. Eirik adalah mahasiswa fakultas psikologi di Universitas Bergen.',\n",
392
- " 'ISO 3166-2:CC adalah entri untuk Kepulauan Cocos (Keeling) pada ISO 3166-2, bagian dari standar ISO 3166 yang diterbitkan oleh Organisasi Internasional untuk Standardisasi (ISO). ISO 3166-2 menstandarkan kode pembagian administratif utama (seperti provinsi atau negara bagian) dari semua negara yang telah diberi kode pada ISO 3166-1. Tiap kode terdiri atas dua bagian yang dipisahkan dengan tanda hubung. Bagian pertama adalah , kode ISO 3166-1 alpha-2 untuk Kepulauan Cocos (Keeling), sedangkan bagian kedua terdiri atas dua huruf.',\n",
393
- " 'Jetfire (disebut juga Skyfire) adalah salah satu karakter robot fiksi dari serial The Transformers.',\n",
394
- " 'Wimilio Vink () adalah seorang pemain sepak bola berkewarganegaraan Belanda yang bermain untuk klub Vitesse biasa bermain pada posisi gelandang.',\n",
395
- " 'Suttungr (satelit) adalah satelit alami dari planet Saturnus.',\n",
396
- " 'I Nyoman Nuarta () adalah pematung Indonesia dan salah satu pelopor Gerakan Seni Rupa Baru (1976). Dia paling dikenal lewat mahakaryanya seperti Patung Fatmawati Soekarno, Patung Garuda Wisnu Kencana (Badung, Bali), Monumen Jalesveva Jayamahe (Surabaya), serta Monumen Proklamasi Indonesia (Jakarta). Nyoman Nuarta mendapatkan gelar sarjana seni rupa-nya dari Institut Teknologi Bandung dan hingga kini menetap di Bandung.',\n",
397
- " 'Clapar adalah desa di kecamatan Subah, Batang, Jawa Tengah, Indonesia. Desa ini terletak di daerah jalan raya Pantura.',\n",
398
- " 'Boling semua nomor putri pada Pekan Olahraga Nasional XIX akan berlangsung di Arena Bowling Graha Siliwangi, Kota Bandung dari tanggal 20 sampai 23 September 2016.',\n",
399
- " 'adalah seorang aktor asal Jepang. Dia mulai berkarier di dunia artis sejak tahun 2000.',\n",
400
- " 'Syekh Haji Daud Rasyidi (lahir di Balingka, Agam, 1880 - meninggal di Bukittinggi, Sumatra Barat, 26 Januari 1948 pada umur 68 tahun) adalah seorang ulama Indonesia asal Minangkabau (Sumatra Barat).',\n",
401
- " 'Runaway dapat merujuk kepada:',\n",
402
- " 'Antodice inscripta adalah spesies kumbang tanduk panjang yang tergolong famili Cerambycidae. Spesies ini juga merupakan bagian dari genus Antodice, ordo Coleoptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
403
- " 'Muircheartach mac Donnchadh mac Murchadha Caomhánach adalah Raja Leinster. Leinster sendiri adalah sebuah kerajaan yang pernah berdiri di sisi tenggara Pulau Irlandia. Muircheartach mac Donnchadh mac Murchadha Caomhánach mulai berkuasa sebagai raja pada tahun 1478. Masa kekuasaannya kemudian berakhir pada tahun 1512.',\n",
404
- " 'Maha-Sangram (juga dikenal sebagai The Big Battle) adalah sebuah film percintaan Bollywood 1990 yang disutradarai oleh Mukul Anand dan dibintangi oleh Vinod Khanna, Aditya Pancholi, Govinda dan Madhuri Dixit.',\n",
405
- " '2011 AS26 adalah sebuah asteroid. Asteroid ini merupakan bagian dari asteroid Amor, yang terletak dekat dengan bumi. Eksentrisitas orbit asteroid ini tercatat sebesar 0.445, sementara magnitudo mutlaknya adalah 22.7.',\n",
406
- " 'Belendung adalah desa di kecamatan Cibogo, Subang, Jawa Barat, Indonesia.',\n",
407
- " 'Johann Baptist Allgaier (19 Juni 1763, Schussenried – 3 Januari 1823, Vienna) adalah seorang master catur dan teoritikus Jerman-Austria. Ia juga seorang penulis buku pegangan catur pertama dalam bahasa Jerman – Neue theoretisch-praktische Anweisung zum Schachspiel (Vienna 1795–96).',\n",
408
- " 'adalah sebuah lintasan monorel yang berada dalam kontruksi di bawah Sembilan Rencana Malaysia dan Wilayah Ekonomi Koridor Utara (NCER). Monorail ini akan terdapat di bagian Pulau Pinang. Dua jalur akan dibangun, dengan perancangan yang sama ke Seberang Perai pada masa yang akan mendatang. Sistem ini meliputi 37km, menelan kas perbelanjaan RM 1.6 miliar.',\n",
409
- " 'Shahri Buzurg, Badakhshan (bahasa Pashtun dan Persia: شهربزرگ) adalah distrik di Provinsi Badakhshan, Afghanistan. Jumlah penduduk di distrik ini pada tahun 2007 yaitu 45,419 jiwa.',\n",
410
- " '{{Infobox station',\n",
411
- " 'Bayan-aja australia (Alisterus scapularis) adalah hewan endemik dari Australia bagian timur. Mereka dapat dijumpai di daerah dataran tinggi berhutan lebat dan lembap di bagian timur benua, termasuk area hutan ekaliptus yang secara langsung berseberangan dengan termperatur hutan hujan dan subtropis.',\n",
412
- " 'Hana Brejchová () adalah seorang pemeran asal Ceko. Ia tampil dalam lebih dari 30 film dan merupakan adik dari pemeran Jana Brejchová.',\n",
413
- " 'Salah satu asam lemak yang paling mudah diperoleh adalah asam palmitat atau asam heksadekanoat. Tumbuh-tumbuhan dari famili Palmaceae, seperti kelapa (Cocos nucifera) dan kelapa sawit (Elaeis guineensis) merupakan sumber utama asam lemak ini. Minyak kelapa bahkan mengandung hampir semuanya palmitat (92%). Minyak sawit mengandung sekitar 50% palmitat. Produk hewani juga banyak mengandung asam lemak ini (dari mentega, keju, susu, dan juga daging).',\n",
414
- " 'eFishery atau PT Multidaya Teknologi Nusantara adalah perusahaan dan merek yang berasal dari Kota Bandung, Indonesia, dimana menyediakan solusi teknologi pengembangan budidaya ikan untuk kebutuhan para pemilik kolam ikan skala menengah dan besar. Perusahaan ini dirikan oleh Gibran Chuzaefah, Muhammad Ihsan Akhirulsyah dan Chrisna Aditya pada tahun 8 Oktober 2013.',\n",
415
- " 'Madulain () adalah sebuah munisipalitas di provinsi Maloja, Graubünden, Swiss.',\n",
416
- " 'Berbalas Kejam (sebelumnya diberi judul Tamu Tak Diundang) adalah film drama cerita seru Indonesia tahun 2023 yang disutradarai oleh Teddy Soeriaatmadja. Film yang ditayangkan di Prime Video pada 16 Februari 2023 ini dibintangi oleh Reza Rahadian, Laura Basuki, dan Baim Wong.',\n",
417
- " 'Hubungan Rusia–Serbia (, ) mengacu pada hubungan luar negeri bilateral antara Republik Serbia dan Federasi Rusia. Kerajaan Serbia dan Kekaisaran Rusia menjalin hubungan resmi pada tahun 1838. Setelah pembubaran Uni Soviet, Republik Federal Sosialis Yugoslavia mengakui Rusia pada bulan Desember 1991 beserta negara-negara bekas Uni Soviet lainnya. Serbia memiliki kedutaan besar di Moskwa dan Rusia memiliki kedutaan besar di Beograd serta kantor penghubung ke UNMIK di Pristina. Serbia juga telah mengumumkan rencana untuk membuka konsulat jenderal di Yekaterinburg.',\n",
418
- " 'Ad Gentes atau Dekret tentang Kegiatan Misioner Gereja adalah salah satu dokumen dari Konsili Vatikan Kedua. Dokumen ini disetujui oleh para Uskup dalam sebuah pemungutan suara 2.394 berbanding 5, dan diresmikan oleh Paus Paulus VI pada 18 November 1965.',\n",
419
- " 'Mehdi Karroubi (, ) adalah seorang rohaniwan Syiah dan politikus reformis asal Iran. Setelah unjuk rasa pemilihan umum Iran 2009–2010, Karroubi ditempatkan dalam penahanan rumah pada Februari 2011.',\n",
420
- " 'Menara Shukhov di Polibino adalah struktur hiperboloid diagrid pertama di dunia yang dirancang pada tahun 1896 oleh Vladimir Shukhov, seorang insinyur dan arsitek Rusia. Menara saat ini terletak di bekas perkebunan Yury Nechaev-Maltsov di sebuah selo di Polibino, Oblast Lipetsk, Rusia.',\n",
421
- " 'Tiworo Selatan adalah sebuah kecamatan di Kabupaten Muna Barat, Provinsi Sulawesi Tenggara, Indonesia.',\n",
422
- " 'RS-26 Rubezh (Rusia: РС-26 Рубеж) (juga dikenal atau dalam program Avangard (Rusia: Авангард)) SS-29?, adalah rudal balistik termonuklir antarbenua Rusia, berbahan bakar padat, melengkapi MIRV, yang dilaporkan berhulu ledak hipersonik di stadium lanjut pengembangan pada awal tahun 2015, didasarkan pada sebelumnya rudal RS-24 Yars.',\n",
423
- " 'Passembuk adalah desa yang berada di kecamatan Mehalaan, Kabupaten Mamasa, Sulawesi Barat, Indonesia. Desa ini letaknya di bagian barat pulau Sulawesi.',\n",
424
- " 'Kecamatan',\n",
425
- " \"Disney's Ambassador Hotel adalah hotel pertama yang dibangun di kawasan Tokyo Disney Resort di Urayasu, Chiba, Jepang. Mulai dibuka pada tanggal 20 Juli 2000 dan dibangun dengan lisensi dari The Walt Disney Company. Hotel ini dijalankan oleh The Oriental Land Company.\",\n",
426
- " 'Pemilihan majelis legislatif keenam Tamil Nadu diadakan pada 10 Juni 1977. Anna Dravida Munnetra Kazhagam (ADMK) memenangkan pemilihan tersebut mengalahkan rivalnya Dravida Munnetra Kazhagam (DMK). M. G. Ramachandran (MGR), pendiri ADMK dan aktor film Tamil utama, dilantik sebagai Ketua Menteri untuk pertama kalinya. Pemilihan tersebut merupakan empat kontes terkorner antara ADMK, DMK, Kongres Nasional India dan Partai Janata. Sebelumnya pada 1972, MGR mendirikan ADMK setelah ia keluar dari DMK setelah perbedaan pendapat antara dirinya dan pemimpin DMK M. Karunanidhi. Pada 31 Januari 1976, pemerintah Karunanidhi dilengserkan oleh pemerintah pusat Perdana Menteri Indira Gandhi karena tuduhan korupsi terhadap Karunanidhi dan pemerintahan Presiden diberlakukan di negara bagian tersebut.',\n",
427
- " 'Katedral Padova () adalah sebuah basilika minor Katolik Roma dan katedral yang terletak di ujung timur Piazza Duomo, bersebelahan dengan istana Uskup, di Padova, wilayah Veneto, Italia. Katedral, yang dipersembahkan untuk Perawan Maria, adalah tempat kedudukan uskup Padova. Bangunan gereja, yang pertama kali didirikan sebagai kursi uskup keuskupan pada abad ke-4, telah mengalami rekonstruksi besar selama berabad-abad.',\n",
428
- " 'adalah jalur trem yang pernah melayani Wilayah Karawang Raya, memiliki jalur cabang menuju Rengasdengklok dari Karawang serta Cilamaya dari Cikampek. Saat ini jalur trem ini termasuk dalam Wilayah Aset I Jakarta.',\n",
429
- " 'Larinia minor adalah spesies laba-laba yang tergolong famili Araneidae. Spesies ini juga merupakan bagian dari ordo Araneae. Nama ilmiah dari spesies ini pertama kali diterbitkan pada tahun 1945 oleh Bryant.',\n",
430
- " 'Daun pisang adalah daun yang dihasilkan tumbuhan pisang. Daun pisang dalam kuliner Nusantara memiliki peran utama sebagai pendukung dekorasi, pelengkap, dan pengemas bahan makanan; selain itu juga digunakan pada berbagai kegiatan keagamaan. Tradisi seperti ini juga dikenal di banyak tempat di Asia Selatan dan Asia Tenggara.',\n",
431
- " 'Phytomyza nigritella adalah spesies lalat yang berasal dari genus Phytomyza dan famili Agromyzidae. Lalat ini juga merupakan bagian dari ordo Diptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia.',\n",
432
- " 'Étienne Capoue () adalah seorang pemain sepak bola berkewarganegaraan Prancis yang bermain untuk klub Watford biasa bermain pada posisi gelandang, tetapi juga bisa bermain sebagai bek.',\n",
433
- " 'Jajanan jalanan atau makanan jalanan (Bahasa Inggris : Street Food )adalah makanan atau minuman siap santap yang dijual oleh penjaja jalanan, pedagang asongan, warung, atau kedai di tempat umum, misalnya di tepi jalan umum, pasar, pasar malam, atau pekan raya. Jajanan jalanan biasanya dijajakan di kios makanan, gerobak makanan, atau truk makanan dan dimaksudkan sebagai makanan segera dikonsumsi. Beberapa makanan jalanan bersifat lokal, beberapa jenis makanan lebih populer dan melampaui batas wilayah tradisional mereka. Beberapa jajanan jalanan diklasifikasikan sebagai camilan dan makanan cepat saji, dan rata-rata lebih murah daripada harga makanan di rumah makan. Menurut penelitian yang digelar pada 2007 study dari Food and Agriculture Organization, 2,5 miliar orang mengkonsumsi jajanan jalanan setiap hari.',\n",
434
- " 'The Big Bang Theory adalah serial sitkom asal Amerika Serikat yang dibuat oleh Chuck Lorre dan Bill Prady, di mana keduanya juga merupakan produser eksekutif di acara tersebut, bersama Steven Molaro. Ketiganya juga merupakan penulis utama dari acara ini. Serial ini ditayangkan pertama kali di CBS pada 24 September 2007.',\n",
435
- " 'Quake adalah game penembak orang pertama (POP), yang dikembangkan oleh id Software dan diterbitkan oleh GT Interactive pada tahun 1996. Ini adalah game pertama dalam seri Quake. Dalam permainan, pemain harus menemukan jalan mereka melalui berbagai lingkungan mirip labirin abad pertengahan sambil berjuang melawan berbagai monster dengan menggunakan beragam senjata.',\n",
436
- " 'Annaliza adalah sebuah serial televisi drama keluarga Filipina tahun 2013 berdasarkan pada serial televisi tahun 1980 bernama sama (disiarkan oleh GMA Network) yang dibintangi oleh Julie Vega, bersama dengan Alicia Alonzo, Renato del Prado, Augusto Victa dan Daria Ramirez. Serial tersebut disiarkan di blok sore Primetime Bida dari ABS-CBN dan di seluruh dunia di The Filipino Channel dari 27 Mei 2013 sampai 21 Maret 2014, menggantikan Little Champ. Film tersebut dibintangi oleh Andrea Brillantes untuk peran utama pertamanya, Zanjoe Marudo, Denise Laurel, Kaye Abad, Patrick Garcia dan Carlo Aquino.',\n",
437
- " 'Perusahaan Hindia Timur Prancis () adalah sebuah perusahaan komersial, yang didirikan pada tahun 1604 untuk bersaing dengan Perusahaan Hindia Timur Inggris dan Perusahaan Hindia Timur Belanda di Hindia Timur.',\n",
438
- " 'Vaughn Richard Walker (kelahiran 1944) menjabat sebagai Hakim Federal Amerika Serikat dari Pengadilan Distrik Amerika Serikat untuk Distrik California Utara dari 1989 sampai 2011. Walker mengetuai pengadilan asli dalam Hollingsworth v. Perry, dimana ia menemukan bahwa Proposition 8 milik California bersifat tak konstitusional.',\n",
439
- " 'Abū As-Sābighah Syamr bin Dzīl Jausyan (), sering dikenal sebagai Syamr atau Syimr adalah seorang komandan militer Arab dari Kufah yang membunuh Husain bin Ali, cucu Nabi Muhammad, di Pertempuran Karbala pada tahun 680.',\n",
440
- " 'Laksamana Muda TNI (Purn.) Sulaeman Banjarnahor, S.E., M.Sc. () adalah seorang purnawirawan perwira tinggi TNI Angkatan Laut yang terakhir menjabat sebagai Perwira Sahli Tk. III Bid Intekmil Panglima TNI.',\n",
441
- " 'Begonia pumila adalah spesies tumbuhan yang tergolong ke dalam famili Begoniaceae. Spesies ini juga merupakan bagian dari ordo Cucurbitales. Spesies Begonia pumila sendiri merupakan bagian dari genus Begonia. Nama ilmiah dari spesies ini pertama kali diterbitkan oleh Craib.',\n",
442
- " 'SMP Negeri 1 Temanggung adalah sekolah yang mendidik siswa-siswi lulusan SD/MI menjadi siswa yang disiplin, santun, mandiri, dan berprestasi. Sekolah yang didirikan pada tanggal 14 September 1945 ini terletak di jalan Kartini nomor 17 Temanggung. Lokasi berada di Kelurahan Kertosari, Kecamatan Temanggung, Kabupaten Temanggung, Provinsi Jawa Tengah. Sekolah ini memiliki luas 22.643 m2. Jumlah siswa Tahun Pelajaran 2010/2011 adalah 748 (tujuh ratus empat puluh delapan siswa) yang berasal dari kalangan masyarakat dengan kondisi sosial ekonomi menengah ke bawah maupun ke atas. Tiap jenjang terdiri dari 9 rombongan belajar, sehingga secara keseluruhan jumlah rombongan belajar adalah 27. Di mata masyarakat Temanggung Lembaga Pendidikan ini telah lama dikenal sebagai sekolah dengan biaya murah tetapi dengan kualitas prima. Sebagai salah satu SMP paling favorit di Kabupaten Temanggung, lembaga Pendidikan ini juga merupakan kebanggaan sekaligus tumpuhan harapan bagi masyarakat Kabupaten Temanggung. Dengan kondisi seperti ini SMP Negeri 1 Temanggung mempunyai peluang yang sangat besar untuk mencapai prestasi yang terbaik, baik prestasi akademik maupun prestasi non akademik. Saat ini, sudah ratusan prestasi yang diraih oleh SMP Negeri 1 Temanggung, baik itu di tingkat kabupaten maupun provinsi',\n",
443
- " 'Partai Konservatif adalah partai politik di Uganda. Partai ini dipimpin oleh Nsubuga Nsambu.',\n",
444
- " 'Pascal Obispo () merupakan penyanyi berkebangsaan Prancis.',\n",
445
- " '2010 JH87 adalah sebuah asteroid. Asteroid ini merupakan bagian dari asteroid Apollo, yang terletak dekat dengan bumi. Eksentrisitas orbit asteroid ini tercatat sebesar 0.540, sementara magnitudo mutlaknya adalah 19.6.',\n",
446
- " 'Jo Kwon (Hangul: 조권, ) adalah penyanyi asal Korea Selatan. Ia merupakan pemimpin dari boy band, 2AM. Ia juga dikenal sebagai Sacre Bleu.',\n",
447
- " 'Railaco merupakan satu kecamatan dari empat kecamatan yang ada di Distrik Ermera. Kecamatan Railaco mempunyai sembilan desa, yaitu Lihu, Matata, Tokoluli, Fatuquero, Railaco Leten, Samalete, Deleso, Railaco Craic, dan Taraso. Rata-rata mata pencaharian penduduk tiap-tiap desa di Kecamatan Railaco adalah pertanian (petani kopi). Desa Lihu, Matata, dan Fatuquero memiliki jumlah penduduk yang lebih banyak dibandingkan enam desa lainnya.',\n",
448
- " 'Shashadhar Acharya (kelahiran 1961) adalah seorang eksponen dansa Chhau dari Saraikela, Jharkhand, India. Pada 2020, ia dianugerahi penghormatan Padma Shri dari Pemerintah India atas kontribusinya dalam bidang Kesenian.',\n",
449
- " 'Gao Yuanyuan (kelahiran 5 Oktober 1979',\n",
450
- " 'Allarmont merupakan sebuah komune di departemen Vosges yang terletak pada sebelah timur laut Prancis.',\n",
451
- " 'Terry adalah album musik pertama karya Terry yang dirilis tahun 2006.',\n",
452
- " 'Senecio pogonias adalah spesies tumbuhan yang tergolong ke dalam famili Asteraceae. Spesies ini juga merupakan bagian dari ordo Asterales. Spesies Senecio pogonias sendiri merupakan bagian dari genus Senecio. Nama ilmiah dari spesies ini pertama kali diterbitkan oleh Cabrera.',\n",
453
- " 'Trichoncyboides simoni adalah spesies laba-laba yang tergolong famili Linyphiidae. Spesies ini juga merupakan bagian dari ordo Araneae. Nama ilmiah dari spesies ini pertama kali diterbitkan pada tahun 1904 oleh Lessert.',\n",
454
- " 'SMP Negeri (SMPN) 100 Jakarta, merupakan salah satu Sekolah Menengah Pertama Negeri yang ada di Provinsi DKI Jakarta, Indonesia. Sama dengan SMP pada umumnya di Indonesia masa pendidikan sekolah di SMPN 100 Jakarta ditempuh dalam waktu tiga tahun pelajaran, mulai dari Kelas VII sampai Kelas IX. Yang telah diakreditasi sangat baik oleh Dinas Pendidikan',\n",
455
- " 'Uhha-Ziti merupakan raja mandiri terakhir Arzawa, sebuah kerajaan Zaman Perunggu di Anatolia barat.',\n",
456
- " 'Yoshiki Sato () adalah seorang pemain sepak bola Jepang.',\n",
457
- " 'Makam susun adalah sebuah rencana sistem pemakaman diusulkan di Yogyakarta dimana satu liang lahat diisi oleh lebih dari satu jenazah, atas alasan lahan yang ada sudah menyempit. Rencana tersebut diisyaratkan sejak masa jabatan Herry Zubianto dan Syukri Fadholi dan didukung oleh Peraturan Daerah (Perda) Kota Yogyakarta Nomor 7 Tahun 1996 tentang Tempat Pemakaman di Wilayah Kota, yang menyatakan bahwa pemakaman susun dapat dilakukan di antara (kerangka) jenazah anggota keluarga apabila bukan anggota keluarga, harus ada izin tertulis dari keluarga, ahli waris, atau pihak yang bertanggung jawab atas (kerangka) jenazah yang dimakamkan lebih dahulu.',\n",
458
- " 'Lepthyphantes altissimus adalah spesies laba-laba yang tergolong famili Linyphiidae. Spesies ini juga merupakan bagian dari ordo Araneae. Nama ilmiah dari spesies ini pertama kali diterbitkan pada tahun 2001 oleh Hu.',\n",
459
- " 'Stasiun Kampus Universitas Tenggara Chengxian (), adalah sebuah stasiun di Jalur 3 dari Nanjing Metro. Stasiun tersebut mulai beroperasi pada 1 April 2015.',\n",
460
- " 'Milan Škriniar (; lahir 11 Februari 1995) adalah pemain sepak bola berkebangsaan Slowakia yang berposisi sebagai bek tengah untuk Inter Milan and the timnas Slowakia.',\n",
461
- " 'Cassandra Harris (lahir di Sydney, Australia, 15 Desember 1948 – meninggal di Los Angeles, California, Amerika Serikat, 28 Februari 1991 pada umur 42 tahun) merupakan seorang aktris film asal Australia. Ia sempat memerankan Bond Girl dalam film For Your Eyes Only pada tahun 1981. Ia juga merupakan istri dari Pierce Brosnan. Harris meninggal dunia pada tahun 1991 setelah selama beberapa tahun berjuang melawan kanker ovarium.',\n",
462
- " 'Entelecara media adalah spesies laba-laba yang tergolong famili Linyphiidae. Spesies ini juga merupakan bagian dari ordo Araneae. Nama ilmiah dari spesies ini pertama kali diterbitkan pada tahun 1887 oleh Kulczynski.',\n",
463
- " 'Pembakaran buku, biblioklasme atau librisida adalah tindakan memusnahkan, kadang secara seremonial, buku atau media tulisan lainnya. Pada masa modern, bentuk media lainnya, misalnya rekaman fonograf, kaset video, atau CD juga telah secara seremonial dibakar, dihancurkan, atau dimusnahkan. Tindakan ini biasanya dilakukan di depan umum, dan sering didasari atas motif moral, keagamaan, atau politik.',\n",
464
- " '2012 BQ92 adalah sebuah asteroid. Asteroid ini merupakan bagian dari asteroid Troya Yupiter, yang terletak di orbit Yupiter. Eksentrisitas orbit asteroid ini tercatat sebesar 0.073, sementara magnitudo mutlaknya adalah 14.6.',\n",
465
- " 'Kalu-Kalukuang adalah satu-satunya kelurahan di Kecamatan Liukang Kalmas, Kabupaten Pangkajene dan Kepulauan, Sulawesi Selatan, Indonesia. Kelurahan ini terdiri atas 2 pulau, yakni Kalu-Kalukuang dan Togotogo Kalu-Kalukuang.',\n",
466
- " 'Cawan penguap () adalah sebuah instrumen peralatan laboratorium yang digunakan sebagai wadah atau tempat penguapan bahan dari bahan yang tidak mudah menguap, seperti garam dapur, gula dan sejenisnya. Cawan ini terbuat dari keramik atau porselen dan biasanya digunakan dalam proses pemisahan campuran atau kristalisasi.']}"
467
- ]
468
- },
469
- "execution_count": 19,
470
- "metadata": {},
471
- "output_type": "execute_result"
472
- }
473
- ],
474
- "source": [
475
- "sample_dict"
476
- ]
477
- },
478
- {
479
- "cell_type": "code",
480
- "execution_count": 20,
481
  "metadata": {},
482
  "outputs": [],
483
  "source": [
 
40
  },
41
  {
42
  "cell_type": "code",
43
+ "execution_count": 8,
44
  "metadata": {},
45
  "outputs": [],
46
  "source": [
47
+ "sample = first_element.sample(n=10000).reset_index()"
48
  ]
49
  },
50
  {
51
  "cell_type": "code",
52
+ "execution_count": 9,
53
  "metadata": {},
54
  "outputs": [],
55
  "source": [
 
58
  },
59
  {
60
  "cell_type": "code",
61
+ "execution_count": 10,
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
62
  "metadata": {},
63
  "outputs": [],
64
  "source": [
model.py CHANGED
@@ -38,6 +38,15 @@ models = {
38
  pipeline(model="w11wo/indonesian-roberta-base-nerp-tagger"),
39
  ],
40
  },
 
 
 
 
 
 
 
 
 
41
  "Sentiment Analysis": {
42
  "title": "Sentiment Analysis",
43
  "examples": [
@@ -98,13 +107,4 @@ models = {
98
  "interface": token_classification_interface,
99
  "pipe": pipeline(model="w11wo/indonesian-roberta-base-nerp-tagger"),
100
  },
101
- "Document Search": {
102
- "title": "# Document Search 🔍",
103
- "examples": ["Stadion bola Indonesia.", "Rusia dan Serbia", "Politik."],
104
- "output_label": "Top 5 related documents",
105
- "desc": "A semantic search tool to get the most related documents 📖 based on user's query.",
106
- "interface": search_interface,
107
- "pipe": SentenceSimilarity(model="LazarusNLP/all-indobert-base-v2"),
108
- "sample": "sample.json",
109
- },
110
  }
 
38
  pipeline(model="w11wo/indonesian-roberta-base-nerp-tagger"),
39
  ],
40
  },
41
+ "Document Search": {
42
+ "title": "# Document Search 🔍",
43
+ "examples": ["Stadion bola Indonesia.", "Rusia dan Serbia", "Politik."],
44
+ "output_label": "Top 5 related documents",
45
+ "desc": "A semantic search tool to get the most related documents 📖 based on user's query.",
46
+ "interface": search_interface,
47
+ "pipe": SentenceSimilarity("LazarusNLP/all-indobert-base-v2", "sample.json"),
48
+ "top_k": 5,
49
+ },
50
  "Sentiment Analysis": {
51
  "title": "Sentiment Analysis",
52
  "examples": [
 
107
  "interface": token_classification_interface,
108
  "pipe": pipeline(model="w11wo/indonesian-roberta-base-nerp-tagger"),
109
  },
 
 
 
 
 
 
 
 
 
110
  }
sample.json CHANGED
The diff for this file is too large to render. See raw diff
 
utils.py CHANGED
@@ -2,8 +2,6 @@ import gradio as gr
2
  from functools import partial
3
  from transformers import pipeline, pipelines
4
  from sentence_transformers import SentenceTransformer, util
5
- from scipy.special import softmax
6
- import os
7
  import json
8
 
9
 
@@ -12,13 +10,23 @@ import json
12
  ######################
13
  class SentenceSimilarity:
14
 
15
- def __init__(self, model: str):
 
 
 
 
 
 
 
 
16
  self.model = SentenceTransformer(model)
 
17
 
18
- def __call__(self, query: str, corpus: list[str]):
19
  query_embedding = self.model.encode(query)
20
- corpus_embeddings = self.model.encode(corpus)
21
- output = util.semantic_search(query_embedding, corpus_embeddings, top_k=5)
 
22
  return output[0]
23
 
24
 
@@ -29,15 +37,18 @@ def sentence_similarity(
29
  titles: list[str],
30
  urls: list[str],
31
  pipe: SentenceSimilarity,
32
- ):
33
- answer = pipe(query=query, corpus=texts)
34
- df = [
35
- [
36
- f"<a href='{urls[ans['corpus_id']]} target='_blank'>{titles[ans['corpus_id']]}</a>"
37
- ]
 
 
 
38
  for ans in answer
39
  ]
40
- return df
41
 
42
 
43
  # Text Analysis
@@ -88,22 +99,20 @@ def search_interface(
88
  output_label: str,
89
  title: str,
90
  desc: str,
91
- sample: str,
92
  ):
93
- f = open(sample)
94
- data = json.load(f)
95
  with gr.Blocks() as sentence_similarity_interface:
96
  gr.Markdown(title)
97
  gr.Markdown(desc)
98
  with gr.Row():
 
99
  with gr.Column():
100
  input_text = gr.Textbox(lines=5, label="Query")
 
101
  df = gr.DataFrame(
102
  [
103
- [id, f"<a href='{url}' target='_blank'>{title}</a>"]
104
- for id, title, url in zip(
105
- data["id"], data["title"], data["url"]
106
- )
107
  ],
108
  headers=["ID", "Title"],
109
  wrap=True,
@@ -112,22 +121,26 @@ def search_interface(
112
  height=300,
113
  )
114
  button = gr.Button("Search...")
115
- output = gr.DataFrame(
116
- headers=["Title"],
117
- wrap=True,
118
- datatype=["html"],
119
- interactive=False,
120
- )
 
 
 
121
  button.click(
122
  fn=partial(
123
  sentence_similarity,
124
  pipe=pipe,
125
- texts=data["text"],
126
- titles=data["title"],
127
- urls=data["url"],
 
128
  ),
129
  inputs=[input_text],
130
- outputs=[output],
131
  )
132
  return sentence_similarity_interface
133
 
 
2
  from functools import partial
3
  from transformers import pipeline, pipelines
4
  from sentence_transformers import SentenceTransformer, util
 
 
5
  import json
6
 
7
 
 
10
  ######################
11
  class SentenceSimilarity:
12
 
13
+ def __init__(self, model: str, corpus_path: str):
14
+ f = open(corpus_path)
15
+ data = json.load(f)
16
+ self.id, self.url, self.title, self.text = (
17
+ data["id"],
18
+ data["url"],
19
+ data["title"],
20
+ data["text"],
21
+ )
22
  self.model = SentenceTransformer(model)
23
+ self.corpus_embeddings = self.model.encode(self.text)
24
 
25
+ def __call__(self, query: str, corpus: list[str], top_k: int = 5):
26
  query_embedding = self.model.encode(query)
27
+ output = util.semantic_search(
28
+ query_embedding, self.corpus_embeddings, top_k=top_k
29
+ )
30
  return output[0]
31
 
32
 
 
37
  titles: list[str],
38
  urls: list[str],
39
  pipe: SentenceSimilarity,
40
+ top_k: int,
41
+ ) -> list[str]:
42
+ answer = pipe(query=query, corpus=texts, top_k=top_k)
43
+ output = [
44
+ f"""
45
+ Cosine Similarity Score: {round(ans['score'], 3)}
46
+ ## [{titles[ans['corpus_id']]} 🔗]({urls[ans['corpus_id']]})
47
+ {texts[ans['corpus_id']]}
48
+ """
49
  for ans in answer
50
  ]
51
+ return output
52
 
53
 
54
  # Text Analysis
 
99
  output_label: str,
100
  title: str,
101
  desc: str,
102
+ top_k: int,
103
  ):
 
 
104
  with gr.Blocks() as sentence_similarity_interface:
105
  gr.Markdown(title)
106
  gr.Markdown(desc)
107
  with gr.Row():
108
+ # input on the left
109
  with gr.Column():
110
  input_text = gr.Textbox(lines=5, label="Query")
111
+ # display documents
112
  df = gr.DataFrame(
113
  [
114
+ [id, f"<a href='{url}' target='_blank'>{title} 🔗</a>"]
115
+ for id, title, url in zip(pipe.id, pipe.title, pipe.url)
 
 
116
  ],
117
  headers=["ID", "Title"],
118
  wrap=True,
 
121
  height=300,
122
  )
123
  button = gr.Button("Search...")
124
+ with gr.Column():
125
+ # outputs top_k results in accordion format
126
+ outputs = []
127
+ for i in range(top_k):
128
+ # open the first accordion
129
+ with gr.Accordion(label=f"Document {i + 1}", open=i == 0) as a:
130
+ output = gr.Markdown()
131
+ outputs.append(output)
132
+ gr.Examples(examples, inputs=[input_text], outputs=outputs)
133
  button.click(
134
  fn=partial(
135
  sentence_similarity,
136
  pipe=pipe,
137
+ texts=pipe.text,
138
+ titles=pipe.title,
139
+ urls=pipe.url,
140
+ top_k=top_k,
141
  ),
142
  inputs=[input_text],
143
+ outputs=outputs,
144
  )
145
  return sentence_similarity_interface
146