Spaces:
Sleeping
Sleeping
initial commit
Browse files- anlp2024.npz +3 -0
- anlp2024.tsv +599 -0
- app.py +80 -0
- poetry.lock +0 -0
- prepare_pool.py +39 -0
- pyproject.toml +22 -0
- requirements.txt +3 -0
- scrape.py +27 -0
anlp2024.npz
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:9dccfdc1f66a3a124d7504852a42f6ec92c91dde6077934c2c4c5e4b17417eae
|
3 |
+
size 2453768
|
anlp2024.tsv
ADDED
@@ -0,0 +1,599 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
A1-1 市況コメント生成のための少数事例選択
|
2 |
+
A1-2 プロンプトチューニングとkNN-LMを組み合わせたリスティング広告のタイトル自動生成
|
3 |
+
A1-3 複数の属性に対する評価を含む宿泊施設レビューに対する多様な返信の自動生成
|
4 |
+
A1-4 答案診断グラフを用いた国語記述式答案へのフィードバックの生成
|
5 |
+
A1-5 多様なクイズを自動生成する手法およびその検証
|
6 |
+
B1-1 用語制約が多い翻訳に対する手法の提案
|
7 |
+
B1-2 Post-Editing with Error Annotation for Machine Translation: Dataset Construction using GPT-4
|
8 |
+
B1-3 日本語→琉球諸語翻訳モデルの構築に向けて
|
9 |
+
B1-4 重文・複文翻訳における Transfomer の性質
|
10 |
+
B1-5 多言語モデルを用いた日英対訳文集合のフィルタリング手法の分析
|
11 |
+
C1-1 大規模言語モデルを用いた検索モデルの中間学習のためのコーパス作成手法
|
12 |
+
C1-2 テキスト変換によるリポジトリレベルのコード検索の改善
|
13 |
+
C1-3 クロスドメイン検索型質問応答のためのニューラル疎ベクトル検索
|
14 |
+
C1-4 Twitterデータを用いたヘビーユーザ特定
|
15 |
+
C1-5 レビューの多角的な有用性判別のための分析と分類モデルの構築
|
16 |
+
D1-1 サンスクリット文献『リグ・ヴェーダ』の韻律構造にもとづくクラスタ分析
|
17 |
+
D1-2 語彙の多様性,密度,洗練性から見た語彙の豊富さ
|
18 |
+
D1-3 豊かな記憶が創る複数形の諸相
|
19 |
+
D1-4 国会集団語の発展段階の分析
|
20 |
+
D1-5 Stability of Translation Across Sound Effect Type: Focusing on Onomatopoeia in Japanese Shonen Manga
|
21 |
+
E1-1 Visual Question Answering における視線情報を用いた質問の曖昧性解消
|
22 |
+
E1-2 SNS上の絵文字位置パターンの分析とLevenshtein距離を用いたサンプル抽出
|
23 |
+
E1-3 基盤モデルと古典プランニングを用いたレシピ記述からの実世界調理計画認識実行ロボットシステム
|
24 |
+
E1-4 実世界対話におけるフレーズグラウンディングモデルの評価と分析
|
25 |
+
E1-5 都市環境における歩行者支援のための画像説明文生成用データセットの作成
|
26 |
+
P1-1 話し言葉における副詞の生起位置と係り先までの距離の関係
|
27 |
+
P1-2 Finding structure in spelling and pronunciation using Latent Dirichlet Allocation
|
28 |
+
P1-3 関西方言を対象とした形態素解析用辞書の開発
|
29 |
+
P1-4 医療縮約表現の分析と課題
|
30 |
+
P1-5 複数短単位版「分類語彙表番号-UniDic」対応表の整備と公開
|
31 |
+
P1-6 トークナイザーの圧縮率を用いた有害コンテンツの判定法
|
32 |
+
P1-7 「昭和・平成書き言葉コーパス」の語彙統計情報の公開
|
33 |
+
P1-8 『日本経済新聞記事オープンコーパス』に対するメタデータと語義情報付与
|
34 |
+
P1-9 A Task of Cloze Explanation Generation for ESL Learning
|
35 |
+
P1-10 日本語意味変化検出の評価セットの拡張と検出手法の評価
|
36 |
+
P1-11 マルチモーダルな野鳥の検索を目的とした知識ベースの構築
|
37 |
+
P1-12 Zero-shot Definition Modelling for Portuguese
|
38 |
+
P1-13 木形状分布の分析:自然言語の句構造とランダム木について
|
39 |
+
P1-14 読解時の視線認識情報と音声発話コーパスを用いたポーズの予測とその比較
|
40 |
+
P1-15 性格特性用語におけるビッグファイブ構造の単語分散表現を用いた検討
|
41 |
+
P1-16 ArgVantage: the New Pedagogical System to Learn Argumentation
|
42 |
+
P1-17 生成AIを用いた鹿児島方言生成―日琉諸語の低資源言語・方言の生成に向けた試み―
|
43 |
+
P1-18 日本語と英語の歌詞における性差のテキスト分類を用いた検討
|
44 |
+
P1-19 大規模言語モデルへの刈り込みによる精神疾患の思考障害シミュレーション
|
45 |
+
P1-20 単語ベクトルに基づく新たな meaning-frequency law の検証
|
46 |
+
P1-21 日本語医療テキスト平易化の評価用データセットの構築
|
47 |
+
P1-22 日本語における医療用語の難易度辞書の半自動構築
|
48 |
+
P1-23 YOASOBI楽曲に関する考察
|
49 |
+
P1-24 日本語終助詞「ね」と「よ」で受け手の印象はどう変わるか
|
50 |
+
P1-25 Non-autoregressive Pre-trained Sequence-to-Sequence Modeling with BERT-NAR-BERT
|
51 |
+
P1-26 単一トークン適応による大規模言語モデルに基づく文埋め込み
|
52 |
+
P1-27💻 Oblique and verb word order relates to speakers' thought patterns
|
53 |
+
A2-1 大規模言語モデルは自身の Hallucination を検知できるか?
|
54 |
+
A2-2 大規模言語モデルにおける日本語ゼロ照応解析能力の分析
|
55 |
+
A2-3 LLM生成コンテンツのSEO観点での品質評価
|
56 |
+
A2-4 物語文に対する大規模言語モデルの読解能力の分析
|
57 |
+
A2-5 インタラクティブフィクションにおける大規模言語モデルの性能
|
58 |
+
A2-6 大規模言語モデルに対する語彙置換継続事前学習の有効性の検証
|
59 |
+
B2-1 双対学習機械翻訳モデルのドメインシフトに対する頑健性の検証
|
60 |
+
B2-2 Optimal Transport for Document Alignment based on Overlapping Fixed-Length Segments
|
61 |
+
B2-3 疑似参照訳文ベクトルの重心に基づく高速なニューラル最小ベイズリスク復号
|
62 |
+
B2-4 対訳データを用いた継続事前訓練による大規模言語モデルの翻訳精度評価
|
63 |
+
B2-5 ニューラル機械翻訳モデルにおける構成的汎化能力の評価
|
64 |
+
B2-6 NMTでの学習データの単語数制約による翻訳精度の向上
|
65 |
+
C2-1 汎用言語モデルを用いた効率的な類似特許検索
|
66 |
+
C2-2 IPCと要約文を用いた特許Encoderと教師なし分類手法の提案
|
67 |
+
C2-3 引用文脈の類似度に基づく局所的引用論文推薦の改良
|
68 |
+
C2-4 論文の文献リストにおける研究データ引用の検出
|
69 |
+
C2-5 推薦理由提示のためのアブストラクトの観点に基づく学術論文推薦
|
70 |
+
C2-6 数式識別子の文書内曖昧性の解消
|
71 |
+
D2-1 フランス語動詞補語の下位分類と組合せ範疇文法による漸進的解析
|
72 |
+
D2-2 言語学的に妥当な日本語 CCG ツリーバンクの構築と評価
|
73 |
+
D2-3 Autoformalization に向けた自然言語証明構造の形式化
|
74 |
+
D2-4 依存型意味論によるモダリティと照応の統一的分析に向けて
|
75 |
+
D2-5 証明論的アプローチを用いた整合性判定による照応解析手法の提案
|
76 |
+
D2-6 主節と関係節におけるWeak Crossover現象の非構造的要因を制御した経験的検証
|
77 |
+
E2-1 テキスト生成による議論マイニング
|
78 |
+
E2-2 修辞構造に基づき言語モデルを制御するテキスト生成手法
|
79 |
+
E2-3 嘘がなく、面白いクイズの自動生成
|
80 |
+
E2-4 大規模言語モデルによる症例報告の構造的要約
|
81 |
+
E2-5 新聞記事からの都々逸生成のための訓練データの作成手法と生成アルゴリズムの改良
|
82 |
+
E2-6 物語を対象とした登場人物の関係図抽出
|
83 |
+
P2-1 クラスタリングによる自由記述回答の要約と選択肢回答空間に射影による解答群間の連関の可視化
|
84 |
+
P2-2 STaMP: 個人の性格や政治的立場等の多面的特性と紐づくSNS データの構築及び文章スタイルによる個人特性予測
|
85 |
+
P2-3 絵文字の量を制御可能な絵文字自動挿入
|
86 |
+
P2-4 自由会話のトピックモデルに基づいた軽度認知障害の検出
|
87 |
+
P2-5 言語モデルによる心理的構成概念の再構成
|
88 |
+
P2-6 RAGを備えたチャットボットに自然言語処理の研究動向を聞いてみた:文書分析作業を効率化するAI アシスタント活用方法の検討
|
89 |
+
P2-7 日本のSNSにおける有害な投稿と健全な投稿の比較分析
|
90 |
+
P2-8 計量テキスト分析のための文埋め込みによる探索的カテゴリ化
|
91 |
+
P2-9 テレビアニメ作品に関するSNS上の情報拡散傾向と感情の関係
|
92 |
+
P2-10 ソーシャルメディア上の発話の攻撃性推定と会話補助
|
93 |
+
P2-11 Sequential Recommendation におけるテキスト情報を活用した未知アイテムへの対処法に関する分析
|
94 |
+
P2-12 商品へのカテゴリ付与誤り事例に対する修正作業支援の検討
|
95 |
+
P2-13 多様な表現を含む攻撃的テキストの自動分類
|
96 |
+
P2-14 JTweetRoBERTa: 大規模SNS投稿テキストによる事前学習と各種タスクによる性能検証
|
97 |
+
P2-15 マイクロブログの再発するトレンドを予測する
|
98 |
+
P2-16 Eコマースにおけるユーザー行動ログと大規模言語モデルを活用したクエリ拡張のための辞書作成
|
99 |
+
P2-17 SNSの煽り投稿における受け手の属性に着目した分類
|
100 |
+
P2-18 Style SimSCE: SNSユーザ同一性に基づく対照学習によるスタイル類似性を捉えた文ベクトルの獲得
|
101 |
+
P2-19 Effectiveness of Multi-task Training for Prediction of Helpfulness of Online Movie Reviews
|
102 |
+
P2-20 Robust Neural Machine Translation for Abugidas by Glyph Perturbation
|
103 |
+
P2-21 ファッションブランドのSNS投稿における絵文字の使用頻度と特徴
|
104 |
+
P2-22 認知症病因物質がもたらす会話内容への影響分析と発症前アルツハイマー病の予測
|
105 |
+
P2-23 翻訳とBabelNetを利用した日本語の語義曖昧性解消
|
106 |
+
P2-24 方言コーパスを用いた感情分析モデルの構築と炎上・ネットいじめ検知手法の提案
|
107 |
+
P2-25 大規模言語モデルを用いた傷害事件の関連法律予測
|
108 |
+
P2-26 LLMを用いた文脈考慮による攻撃性検出性能の改善
|
109 |
+
P2-27💻 L2日本語学習者によるエッセイ評価:語彙的多様性と文法的複雑性に焦点を置いて
|
110 |
+
A3-1 NoisyICL: A Little Noise in Model Parameters Can Calibrate In-context Learning
|
111 |
+
A3-2 日本語LLM構築におけるコーパスクリーニングの網羅的評価
|
112 |
+
A3-3 汎用言語モデルは日本語学習者データに基づく語彙難易度を予測できるのか
|
113 |
+
A3-4 LLM による合成文脈データを用いた表のエンティティリンキング
|
114 |
+
A3-5 固有表現抽出における大規模言語モデルのLoRAファインチューニングの学習設定の調査
|
115 |
+
A3-6 LLM はユーザーに適したテキストの���易度を暗黙的に考慮しているのか?
|
116 |
+
B3-1 中間言語を利用したデータ多様化とアンサンブル学習に基づくゼロリソース機械翻訳
|
117 |
+
B3-2 Estimating Japanese Essay Grading Scores with Large Language Models
|
118 |
+
B3-3 Non-literal Neural Machine Translation by Exploiting Non-literal Bitext
|
119 |
+
B3-4 多数決による自己回帰モデルに基づく機械翻訳
|
120 |
+
B3-5 双方向翻訳モデルの相互学習におけるデータ多様化の適用
|
121 |
+
B3-6 字幕機械翻訳における自動訳抜け検出の試みとその分析
|
122 |
+
C3-1 ClipQA: 言語特徴埋め込み空間における3D画像質問応答
|
123 |
+
C3-2 長文生成の多面的評価:人手評価と自動評価の向上を目指して
|
124 |
+
C3-3 日本語Natural QuestionsとBoolQの構築
|
125 |
+
C3-4 InstructDoc: 自然言語指示に基づく視覚的文書理解
|
126 |
+
C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
|
127 |
+
C3-6 絵本を題材とするクイズの生成と評価
|
128 |
+
D3-1 文字系列情報による性能への影響からニューラルモデルが有する言語的な傾向を見出せるか
|
129 |
+
D3-2 サブワード系列の変化が固有表現抽出に与える影響の調査
|
130 |
+
D3-3 木構造自己注意機構を用いた教師なし統語構造解析
|
131 |
+
D3-4 系列ラベリングデータにおけるCutMIX によるデータ拡張
|
132 |
+
D3-5 BPEを用いたトークナイザーの性能に対する, 言語・語彙数・データセットの影響
|
133 |
+
D3-6 固有表現を対象とした小説登場人物検出
|
134 |
+
E3-1 深層学習モデルにおける言語特徴分布に関する研究
|
135 |
+
E3-2 時間関係に基づくテ形節の用法分類
|
136 |
+
E3-3 依存型意味論における暗黙的な文脈拡張による慣習的推意の分析
|
137 |
+
E3-4 長距離相互作用する文脈依存言語における相転移現象 -言語モデルの創発現象を統計力学の視点で理解する-
|
138 |
+
E3-5 BERTはどのように逆接の談話関係を判定しているか─Attentionと品詞を手がかりとして─
|
139 |
+
E3-6 神経科学に着想を得たシナプス刈り込みによる大規模言語モデルの原理解明
|
140 |
+
P3-1 外国人介護職員のためのやさしい日本語を用いたオノマトペ変換辞書の自動生成手法の提案
|
141 |
+
P3-2 科学知識発見を目的とした特許のアノテーション
|
142 |
+
P3-3 事故事例文章構造化システムの構築
|
143 |
+
P3-4 言語横断ラベル射影を用いた日本語文書レベル関係抽出データセットの構築
|
144 |
+
P3-5 イベントの発生条件のアノテーションと条件の予測性能評価
|
145 |
+
P3-6 マッチング数制約下でのアノテーション検証割り当ての自動化
|
146 |
+
P3-7 特定の専門分野を対象とした意味役割付きデータ作成手法〜有機合成手順の抽出を例として〜
|
147 |
+
P3-8 RecipeSTS: レシピのための類似性評価
|
148 |
+
P3-9 小説発話への発話意図アノテーションのための末尾部分析の試み
|
149 |
+
P3-10 否定アノテーション付きコーパスの統一に向けた否定スコープの自動変換
|
150 |
+
P3-11 見出し意味具体化に向けた日本語ベンチマークの構築
|
151 |
+
P3-12 Templates for Fallacious Arguments Towards Deeper Logical Error Comprehension
|
152 |
+
P3-13 Find–the–Common: Benchmarking and Assessing Inductive Reasoning Ability on Vision-Language Models
|
153 |
+
P3-14 小説を利用した日本語日常対話コーパス構築のための台詞間の発話応答関係の判定
|
154 |
+
P3-15 機械翻訳向け原文編集の支援に向けた日英翻訳品質推定データセットの設計と構築
|
155 |
+
P3-16 日本語自然言語処理リポジトリ分類データセットの構築
|
156 |
+
P3-17 ディスコースからみた文末表現抽出
|
157 |
+
P3-18 JEMHopQA:日本語マルチホップQAデータセットの改良
|
158 |
+
P3-19 TaCOMET: 時間を考慮したイベント常識生成モデル
|
159 |
+
P3-20 有価証券報告書を対象とした機械判読が困難な表構造の分析
|
160 |
+
P3-21 妊娠・出産・育児に関する情報サイトを対象とした母親が求めている回答の特徴分析
|
161 |
+
P3-22 有価証券報告書に含まれるデータの企業間比較における課題について
|
162 |
+
P3-23 日経企業 ID リンキングのための類似度ベース EL システムの構築と分析
|
163 |
+
P3-24 大規模言語モデルを用いた日本語文中の並列構造の抽出
|
164 |
+
P3-25 Uzushio: A Distributed Huge Corpus Processor for the LLM Era
|
165 |
+
P3-26 日本語徳倫理データセットの開発に向けて:英語データセットの翻訳と日本語データセットの比較
|
166 |
+
P3-27 反論の論理パターン解析: データセット構築と実現性検証
|
167 |
+
P3-28💻 日本語の日常会話における言い直し表現の検討
|
168 |
+
A4-1 日本語論理推論ベンチマークJFLD の提案
|
169 |
+
A4-2 NeuBAROCO データセットによる大規模言語モデルの推論能力の検証
|
170 |
+
A4-3 LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析
|
171 |
+
A4-4 制約が異なる指示で生成された文章に対するLLM生成検���の頑健性
|
172 |
+
A4-5 語彙置換継続事前学習による日英バイリンガルモデルの構築と評価
|
173 |
+
B4-1 視写課題の自動採点へ向けた子供らしい文字の自動生成による OCR 精度の向上
|
174 |
+
B4-2 Large-scale Vision Language Modelによる芸術作品に対する説明の生成
|
175 |
+
B4-3 Vision Language Modelが持つ画像批評能力の評価手法の提案
|
176 |
+
B4-4 外国手話データセットを活用した日本手話動画からの音節構成要素認識
|
177 |
+
B4-5 Forgetful Multi-store Memory System for a Cognitive Assistive Robot
|
178 |
+
C4-1 企業の環境活動における収益性の関係解析と改善案の自動生成
|
179 |
+
C4-2 T5を用いた技術課題・解決手段推定による特許マップ自動生成
|
180 |
+
C4-3 Beige Bookのセンチメントとマクロ経済データを用いた米国金利変動予測
|
181 |
+
C4-4 投資家の情報選択に対する重みを考慮した金融推奨
|
182 |
+
C4-5 加法構成性を活用した最適輸送による文書類似度の定量化
|
183 |
+
D4-1 移動軌跡解析:文章中の人物の地理的な移動を読み取る
|
184 |
+
D4-2 Word2Box を用いた人々の移動に基づく地域メッシュの領域表現
|
185 |
+
D4-3 言語情報と地理情報を融合した魅力的な経路案内
|
186 |
+
D4-4 メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング
|
187 |
+
D4-5 日本語旅行記ジオパージングデータセットATD-MCL
|
188 |
+
E4-1 不法行為としての誹謗中傷検出と検出理由の説明可能性の検証
|
189 |
+
E4-2 日本語不法行為事件データセットの構築
|
190 |
+
E4-3 法令データの現状と法令分野へのデジタル技術適用の展望
|
191 |
+
E4-4 大規模言語モデルを用いた日本語判決書の自動要約
|
192 |
+
E4-5 GPTs and Language Barrier: A Cross-Lingual Legal QA Examination
|
193 |
+
P4-1 オンライン動画サービスにおけるBERT及びGPT-3.5を用いた視聴者感情の推定
|
194 |
+
P4-2 コメントフィルタリングのための感情分析を用いたコメント評価尺度の検討
|
195 |
+
P4-3 感情の顕現性を考慮した書き手の感情強度推定
|
196 |
+
P4-4 Xのポストデータに対するレーティング予測
|
197 |
+
P4-5 日本酒の味わい表現の分析のための程度表現の定量化
|
198 |
+
P4-6 多言語評価極性判定における文法・語彙知識と生成モデルの統合
|
199 |
+
P4-7 XLM-RoBERTa を利用した実データの英日評判分析
|
200 |
+
P4-8 精神障害を視野に入れたツイート行動における感情状態の検討
|
201 |
+
P4-9 短歌固有の属性に対応する脳内情報表現
|
202 |
+
P4-10 自由記述からセルフ・コンパッションを推定することは可能か?―BERTによる心理学的構成概念の定量化―
|
203 |
+
P4-11 センチメント分析を用いた感情を重視した物語の階層的要約手法
|
204 |
+
P4-12 Exploring Task Decomposition for Assisting Large Language Models in Counter-argument Logical Structure Analysis
|
205 |
+
P4-13 大規模言語モデルによる授業改善に向けた小学校における授業の発話シミュレーション
|
206 |
+
P4-14 確信度と得点の予測精度を両立する論述回答自動採点モデル
|
207 |
+
P4-15 日本語小論文に対する採点およびフィードバックの生成
|
208 |
+
P4-16 T5 を用いた日本語記述式答案の文字認識誤り訂正
|
209 |
+
P4-17 ChatGPTの過剰回答に対する自己フィードバック機構を組み込んだ医療面接試験向け仮想模擬患者
|
210 |
+
P4-18 文法項目の多様性と誤り情報を利用したエッセイ自動採点
|
211 |
+
P4-19 プログラミング課題文からの重要箇所抽出
|
212 |
+
P4-20 文法誤り訂正の包括的メタ評価: 既存自動評価の限界と大規模言語モデルの可能性
|
213 |
+
P4-21 項目反応理論を用いた難易度調整可能な多肢選択式読解問題自動生成
|
214 |
+
P4-22 JGLUE データを用いた模範解答との差異に基づく汎用採点モデルの構築
|
215 |
+
P4-23 自動採点技術と項目反応理論に基づくテスト等化を通じた論述式回答評価の高精度化
|
216 |
+
P4-24 教育を目的とした日本語初等数学問題に特化した大規模言語モデルの構築
|
217 |
+
P4-25 文法誤り訂正の自動評価のための原文・参照文・訂正文間のN-gram F-score
|
218 |
+
P4-26 読み情報を利用したニューラル日本語入力誤り訂正モデルの構築と評価
|
219 |
+
P4-27 大規模言語モデルによる和文英訳問題の自動採点
|
220 |
+
P4-28💻 An Automatic Question Generation System for High School English Education
|
221 |
+
A5-1 GPT for Extraction of Biomedical Fields from Clinical Study Texts
|
222 |
+
A5-2 文字起こしテキストから得た質問のタグ推定
|
223 |
+
A5-3 大規模言語モデルによる少数かつ短文の文書に対するトピックモデリング
|
224 |
+
A5-4 文献理解のための人間の応答を利用したプロンプト最適化
|
225 |
+
A5-5 潜在的正規分布によるイベントの時間関係の推定
|
226 |
+
B5-1 正書法および音韻の複雑さによる音声認識の精度への影響
|
227 |
+
B5-2 ラベル付き系列予測による音声シグナルの Textless 依存構造解析
|
228 |
+
B5-3 SlideAVSR: 視聴覚音声認識のための論文解説動画データセット
|
229 |
+
B5-4 Creating Heterogenous Transcription of English and Japanese on a Multilingual Audio File
|
230 |
+
B5-5 環境音に対する日本語自由記述文コーパスとベンチマーク分析
|
231 |
+
C5-1 DDSTM:Spike and Slab 事前分布を用いた動的スパース・トピックモデル
|
232 |
+
C5-2 ゼロショットテキスト分類によるTCFD推奨開示項目の自動判定
|
233 |
+
C5-3 有価証券報告書の活用による事業セグメント関連語の拡張
|
234 |
+
C5-4 重要技術語を対象とした特許技術の時系列トレンド分析手法 Patent-GLIPICA の開発
|
235 |
+
C5-5 大規模言語モデルを用いた金融テキストに対する推論ベースの極性付与
|
236 |
+
D5-1 語形の分布状況のベクトル化による言語地図の分類方法
|
237 |
+
D5-2 地理的エンティティ情報が与えられた文書ジオロケーションモデルの有効性検証
|
238 |
+
D5-3 衛星画像の時系列変化説明に向けたLVLMの比較
|
239 |
+
D5-4 Text2Traj2Text: 大規模言語モデルを活用した段階的データ生成に基づく人物移動軌跡の言語化
|
240 |
+
E5-1 民事第一審判決書のXMLデータ化
|
241 |
+
E5-2 Applying mutual information to extract legal domain-specific collocation nouns in Mandarin
|
242 |
+
E5-3 法律間の類似条文の対応付けにおけるBERTの法令ドメイン適応
|
243 |
+
E5-4 変更極小性を考慮した改正後法令文の機械翻訳
|
244 |
+
P5-1 地図を刺激に用いた経路情報参照表現の収集
|
245 |
+
P5-2 前提知識を考慮した数学の確率問題自動解答の精度向上
|
246 |
+
P5-3 早押しクイズの名数問題における解の妥当性を考慮した解答をするための CoT プロンプトの構築
|
247 |
+
P5-4 RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models
|
248 |
+
P5-5 RAGにおけるLLMの学習と評価:FAQタスクへの応用
|
249 |
+
P5-6 質問応答モデルはどのショートカットを優先して学習するか?
|
250 |
+
P5-7 大規模言語モデルを用いたEmotional Support Conversation システムの構築とその評価
|
251 |
+
P5-8 エントレインメント尺度および戦略が対話システムの評価に与える影響の調査
|
252 |
+
P5-9 Character-LLM 構築のためのキャラクター設定指示
|
253 |
+
P5-10 経験情報収集および伝達を主目的とする雑談対話による関係性維持支援システム
|
254 |
+
P5-11 ロボット対話によるインタラクティブ観光プランニング
|
255 |
+
P5-12 複数生成AI間のコミュニケーションにおける対話の多寡と思考変化の関係分析
|
256 |
+
P5-13 SILVER: Self Data Augmentation for Out-of-scope Detection in Dialogues
|
257 |
+
P5-14 文脈を考慮した半教師あり学習による対話行為推定
|
258 |
+
P5-15 語り直しを目的とした大規模言語モデルを用いた Story Intention Graph の作成とその評価
|
259 |
+
P5-16 対話状態追跡における言語モデルのスキーマに基づくHallucinationの抑制
|
260 |
+
P5-17 強化学習を用いた傾聴対話モデルの構築
|
261 |
+
P5-18 対話破綻修復コーパスの収集と分析 —ユーザの個人特性とシステムとの関係性を考慮した修復文生成に向けて—
|
262 |
+
P5-19 語りに傾聴を示す応答タイミングの検出のためのテキストデータの利用
|
263 |
+
P5-20 ペルソナ対話システムにおけるペルソナ選択と応答生成
|
264 |
+
P5-21 知識グラフの対話システムへの記憶化:学習アプローチの探究
|
265 |
+
P5-22 キャッチコピー共同作成対話コーパスにおける発話と編集および参照の分析
|
266 |
+
P5-23 コンタクトセンターにおける人と言語モデルの協働による対話データの作成
|
267 |
+
P5-24 地図を刺激に用いた位置情報参照表現の収集
|
268 |
+
P5-25 実際の人々の感想を利用した雑談発話生成
|
269 |
+
P5-26 Dialogue Response Generation Using Personal Facts and Personality Traits
|
270 |
+
P5-27 ディスカッションの役割分類に基づいたファシリテーション対話システム
|
271 |
+
P5-28💻 対話の齟齬と介入による解消:LLM を用いた検討
|
272 |
+
A6-1 Swallowコーパス: 日本語大規模ウェブコーパス
|
273 |
+
A6-2 大規模言語モデルの日本語理解能力検証のための「本音と建前」データセットの構築
|
274 |
+
A6-3 ichikara-instruction LLMのための日本語インストラクションデータの作成
|
275 |
+
A6-4 大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用
|
276 |
+
A6-5 Aug AnaloGPT: 大規模言語モデルを用いたアナロジー生成によるデータ拡張
|
277 |
+
B6-1 日本語Winogroundデータセットの自動構築
|
278 |
+
B6-2 画像ベースとテキストベースのモデルを用いた表の構造解析の性能検証
|
279 |
+
B6-3 Hol-CCG構文解析と拡散モデルの統合による構文構造を陽に考慮した画像生成
|
280 |
+
B6-4 人工画像を用いたText-to-Imageモデルの事前学習
|
281 |
+
B6-5 日本語特化の視覚と言語を組み合わせた事前学習モデルの開発 Developing Vision-Language Pre-Trained Models for Japanese
|
282 |
+
C6-1 LLM を用いたタカハトセン���メント付与タスクの検証
|
283 |
+
C6-2 株価変動に対する大規模言語モデルを用いた株式用語選択
|
284 |
+
C6-3 内積注意重みを用いた統合報告書の定量評価とポートフォリオ分析
|
285 |
+
C6-4 金融分野における言語モデル性能評価のための日本語金融ベンチマーク構築
|
286 |
+
C6-5 ファイナンシャル・プランニングの自動化に向けた GPT-4 及び RAG の性能評価
|
287 |
+
D6-1 否定表現を伴う文における自然言語理解の性能検証
|
288 |
+
D6-2 自然言語処理でもスコープ解釈を取り扱うべきか?-QRの棄却と主述関係を基にした分析の提案-
|
289 |
+
D6-3 Japanese Adverb Taxonomy: Modern NLP Tools and Comparative Linguistic Analysis
|
290 |
+
D6-4 数学証明における帰結関係を表す接続表現の予測
|
291 |
+
D6-5 日本語の格助詞「が」を用いた情報の授受
|
292 |
+
E6-1 言語の固有次元を測る
|
293 |
+
E6-2 意味変化の統計的法則は1000年成り立つ
|
294 |
+
E6-3 Exploring Metalinguistic Awareness in Pre-trained Language Models through the International Linguistics Olympiad Challenges
|
295 |
+
E6-4 意味の集中度に基づいた意味変化検出
|
296 |
+
E6-5 動詞派生前置詞の文法化の定量化
|
297 |
+
P6-1 日本語文埋め込みの文書検索性能と検索補助付き生成での評価
|
298 |
+
P6-2 文書分類のためのクラス情報を考慮したトークン分割
|
299 |
+
P6-3 Improving Zero-Shot Dependency Parsing by Unsupervised Learning
|
300 |
+
P6-4 日本語 Universal Dependencies の通時的転移可能性について
|
301 |
+
P6-5 Transformerとベクトルを用いたSpan-based固有表現抽出手法
|
302 |
+
P6-6 日本語意味役割タスクにおいて複数TokenIDが与える影響
|
303 |
+
P6-7 依存関係の大きさは意味の関連性を表す
|
304 |
+
P6-8 自動生成したNLI データを用いた教師なし文埋め込みの改良
|
305 |
+
P6-9 言語横断類似度推定のための多言語文符号化器のドメイン適応
|
306 |
+
P6-10 家族関係を対称詞として呼びかけられた際の聞き手の受け取り方 ー事象関連電位を用いた検討ー
|
307 |
+
P6-11 大規模言語モデルによるシフト還元修辞構造解析の模倣
|
308 |
+
P6-12 モデル編集を用いたMachine Unlearningにおけるハイパーパラメータの自動調節
|
309 |
+
P6-13 生成 AI は含意関係認識ができるのか
|
310 |
+
P6-14 対話モデルに対する敵対的プロンプトの効率的な最適化
|
311 |
+
P6-15 日本語TruthfulQAの構築
|
312 |
+
P6-16 大規模言語モデルに含まれる社会集団間の感情の抽出
|
313 |
+
P6-17 複文における言い換え文の生成
|
314 |
+
P6-18 任意の文における言い換え文の作成
|
315 |
+
P6-19 Exploring the Challenges of Multi-Step Logical Reasoning with Language Models: A Few-Shot Approach to Explainable Entailment Trees
|
316 |
+
P6-20 JParaCrawlからの大規模日本語言い換え辞書の構築
|
317 |
+
P6-21 大規模言語モデルにおける幻覚緩和のための単語確率の外挿
|
318 |
+
P6-22 人材業界固有の表現を考慮した求人票のマルチラベル分類
|
319 |
+
P6-23 語りの傾聴における補完応答の生成のための話し手の発話の予測
|
320 |
+
P6-24 RAGにおける自己認識的不確実性の評価
|
321 |
+
P6-25 自己認知は LM as KB の信頼性を高めるか
|
322 |
+
P6-26 言語は等しく複雑か?: 多義語埋め込み表現による形式–意味対応の複雑性
|
323 |
+
P6-27 超伝導材料の転移温度予測における事例間の繋がりを考慮した知識グラフの有効性の調査
|
324 |
+
A7-1 Compositional augmentation policy using different formulas for the notion of middle sentence for low resource machine translation
|
325 |
+
A7-2 異言語間対話支援における誤訳警告メッセージの有効性調査
|
326 |
+
A7-3 LLM の生成・翻訳による指示・応答データセット構築
|
327 |
+
A7-4 同一の原文書に対する複数の翻訳文書間で対応する言語単位対の自動抽出
|
328 |
+
A7-5 プロンプトの丁寧さと大規模言語モデルの性能の関係検証
|
329 |
+
A7-6 自然言語生成のための指示テキストの曖昧性解消
|
330 |
+
B7-1 自然言語処理における属性単位での反学習
|
331 |
+
B7-2 文法誤り検出BERTのためのマルチタスク追加事前学習
|
332 |
+
B7-3 Integrated Gradientsにおける理想の積分ステップ数はインスタンス毎に異なる
|
333 |
+
B7-4 文脈構造を利用した埋め込み表現学習の提案
|
334 |
+
B7-5 Inductive-bias Learning: 大規模言語モデルによる予測モデルの生成
|
335 |
+
B7-6 量子計算を用いた文字言語モデル
|
336 |
+
C7-1 音声認識を用いた青空文庫振り仮名注釈付き音声コーパスの構築の試み
|
337 |
+
C7-2 科学論文中の同じ貢献を説明しているイントロダクションの文と本文のパラグラフを判定するためのデータセット
|
338 |
+
C7-3 ヘイトスピーチ検出における GPT-4 による擬似ラベル付与の手法と評価
|
339 |
+
C7-4 日本語社会的バイアスQAデータセットの提案
|
340 |
+
C7-5 J-UniMorph: 日本語の形態論における意味分類の体系化
|
341 |
+
C7-6 ホープスピーチ研究のための日本語データセット
|
342 |
+
D7-1 カタカナ語の視覚的処理における迅速な音韻活性: 閾下プライミングを用いた語彙性判断課題による検証
|
343 |
+
D7-2 認知フィードバック:眼球運動・脳波による大規模言語モデルの強化学習
|
344 |
+
D7-3 早押しクイズにおける超次単語予測の認知モデリング
|
345 |
+
D7-4 選択性を考慮した語彙エントレインメント尺度
|
346 |
+
D7-5 認知ファインチューニング:眼球運動による大規模言語モデルのファインチューニング
|
347 |
+
D7-6 工学的性能と人間らしさの関係はトークン分割に依存する
|
348 |
+
E7-1 どのような言語モデルが不可能な言語を学習してしまうのか?---語順普遍を例に---
|
349 |
+
E7-2 共通基盤の構築に及ぼすイメージ生成の個体差に関するシミュレーション
|
350 |
+
E7-3 Metropolis-Hastings Captioning Game による複数の視覚言語モデルのベイズ的統合
|
351 |
+
E7-4 大規模言語言語モデルを用いたエージェントベース進化モデルにおける形質表現の拡張
|
352 |
+
E7-5 指示ゲームの生成モデル的な再解釈
|
353 |
+
E7-6 RL-SPINNを用いた創発言語の汎化性能の評価
|
354 |
+
P7-1 拡散過程を用いたキャプション生成における分類器導入の精度への影響の検証
|
355 |
+
P7-2 自然画像で学習された画像埋め込みにダイアグラムを特徴づける情報は含まれているか?
|
356 |
+
P7-3 知識ベースの検索を伴うVideo QAタスクの提案
|
357 |
+
P7-4 Genre-based Character Network Analysis and Emotion Sequence Analysis for Manga
|
358 |
+
P7-5 環境依存情報を利用しない大規模言語モデルによるコンピュータータスク自動化手法
|
359 |
+
P7-6 Enhancing Economic Time Series Prediction with News Text Data and Numerical Data: A Transformer-Based Approach
|
360 |
+
P7-7 Multimodal Large Language Model Meets New Knowledge: A Preliminary Study
|
361 |
+
P7-8 音声想起時の脳波における想起区間の推定
|
362 |
+
P7-9 一人称視点映像を用いたマルチモーダル作業支援システム
|
363 |
+
P7-10 視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法
|
364 |
+
P7-11 講演動画の言語横断字幕生成のための英日マルチモーダル対訳コーパスの構築
|
365 |
+
P7-12 Combining Large Language Model with Speech Recognition System in Low-resource Settings
|
366 |
+
P7-13 Large Language Models as Manga Translators: A Case Study
|
367 |
+
P7-14 EgoOops!データセット:手順書に従う作業の一人称視点映像への作業誤りアノテーション
|
368 |
+
P7-15 一人称視点に基づくテキスト駆動型アフォーダンス及び軌跡の学習
|
369 |
+
P7-16 PORTER:最適輸送を用いたPolygon Matchingに基づく参照表現セグメンテーション
|
370 |
+
P7-17 レストラン検索・予約サイトの投稿画像分類におけるマルチモーダルモデルの適用検証
|
371 |
+
P7-18 サッカー実況中継を付加的情報の提供という側面から見る
|
372 |
+
P7-19 日本語投機的デコーディングの検討
|
373 |
+
P7-20 Improving the Image Discrimination Ability for CLIP-Model via Semantic Graphs through Graph Convolutional Network
|
374 |
+
P7-21 大規模視覚言語モデルに関する指示追従能力の検証
|
375 |
+
P7-22 語義曖昧性解消に着目した英日マルチモーダル機械翻訳の評価セット構築と分析
|
376 |
+
P7-23 Evaluation of the Adversarial Robustness in LLM-based Visual Dialog System
|
377 |
+
P7-24💻 Out-of-distribution Shape Generation using Large Language Models and Geometry Nodes
|
378 |
+
A8-1 土木分野におけるLLMを用いた言語モデル評価手法の提案
|
379 |
+
A8-2 llm-jp-eval: 日本語大規模言語モデルの自動評価ツール
|
380 |
+
A8-3 日本語小説の発話者分類における大規模言語モデルおよび規則の評価
|
381 |
+
A8-4 ChatGPT as a Translation Engine: A Case Study on Japanese-English
|
382 |
+
A8-5 継続事前学習による日本語に強い大規模言語モデルの構築
|
383 |
+
A8-6 デコーダベースの事前学習済み言語モデルの多言語能力に関する分析:言語固有ニューロンの検出と制御
|
384 |
+
B8-1 都議会議事録における自動要約のための数値情報自動修正手法の提案
|
385 |
+
B8-2 大規模言語モデルによる時系列を考慮したフェイクニュース生成
|
386 |
+
B8-3 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析
|
387 |
+
B8-4 科学技術論文を対象とした根拠付き生成型要約システムの構築
|
388 |
+
B8-5 モデル介入を用いる Jailbreak prompt 攻撃の初期応答の選択手法
|
389 |
+
B8-6 逆学習による言語モデルの解析
|
390 |
+
C8-1 日本語ヘイトスピーチ検出における疑似ラベルを用いた精度向上効果の検証
|
391 |
+
C8-2 ELECTRA単語分散表現とLightGBMを使った固有表現抽出
|
392 |
+
C8-3 LLMを用いた不適切発話データの自動生成に関する研究
|
393 |
+
C8-4 固有名詞置換による共参照解析データセットの拡張
|
394 |
+
C8-5 固有表現抽出における大規模言語モデルを用いた自動アノテーション
|
395 |
+
C8-6 森羅プロジェクト
|
396 |
+
D8-1 テキスト平易化の品質推定のための擬似訓練
|
397 |
+
D8-2 最適輸送に基づく擬似訓練デー��を用いた機械翻訳の品質推定
|
398 |
+
D8-3 対義関係バイアス: 事前訓練済み言語モデルと人間の意味関係間の弁別能力に関する分析
|
399 |
+
D8-4 同時通訳・同時翻訳のための語順同期性評価
|
400 |
+
D8-5 文法誤り訂正における参照なし評価尺度を用いた分析的評価法
|
401 |
+
D8-6 評価の階層性に着目した雑談対話システム評価の分析
|
402 |
+
E8-1 分散的ベイズ推論による創発コミュニケーションに基づくマルチエージェント強化学習
|
403 |
+
E8-2 ガウス過程に基づく確率的生成モデルを用いたマルチモーダル情報に基づく連続的な記号の創発
|
404 |
+
E8-3 文字列中からの単語の発見と感覚情報に基づく単語の意味づけを通じた SIR 名付けゲームによる言語の創発
|
405 |
+
E8-4 統語変形はコミュニケーションから創発するのか?
|
406 |
+
E8-5 個別化認知モデルを用いた音韻意識推定手法評価のための音声フィルタの検討
|
407 |
+
E8-6 共同図形配置課題を行うシステムの構築と分析
|
408 |
+
P8-1 TED 講演音声の機械翻訳のためのデータ拡張法の比較
|
409 |
+
P8-2 過去クエリを介した関連文書検索システム
|
410 |
+
P8-3 論文におけるURLによる引用を考慮した引用要否判定
|
411 |
+
P8-4 対話型検索のためのクエリ書き換えにおける大規模言語モデルの効果分析
|
412 |
+
P8-5 ChatGPT による日本語常識道徳データセットの拡張
|
413 |
+
P8-6 大規模言語モデル開発における日本語 Web 文書のフィルタリング手法の検証
|
414 |
+
P8-7 新聞記事を対象としたSentence BERTを用いた経済政策不確実性の分類
|
415 |
+
P8-8 日本語タスクにおける LLM を用いた疑似学習データ生成の検討
|
416 |
+
P8-9 ニュースソースの違いによるフェイクニュース検出と問題点
|
417 |
+
P8-10 大規模言語モデルを用いたニュース類似度の算出
|
418 |
+
P8-11 テキスト分析による言語処理学会年次大会 29 年分の研究動向の調査
|
419 |
+
P8-12 Translation Suggestion based on Pseudo Data generated from Word Alignment
|
420 |
+
P8-13 翻訳文の部分構造を制約とした機械翻訳
|
421 |
+
P8-14 漸進的な音声分割を用いたストリーミング同時音声翻訳
|
422 |
+
P8-15 タグ付き混合データ学習と自己教師あり学習による同時通訳データを用いたEnd-to-End同時音声翻訳
|
423 |
+
P8-16 JParaCrawl v4.0: クラウドソーシングを併用した大規模対訳コーパスの構築
|
424 |
+
P8-17 単語難易度を考慮した反復的な翻訳文の平易化
|
425 |
+
P8-18 文内コンテキストを利用した分割統治ニューラル機械翻訳
|
426 |
+
P8-19 言い換え文を用いた機械翻訳の学習データの増加
|
427 |
+
P8-20 Exploring the Potential of Prompt-Based Method for Kanji-Kana Conversion in Japanese Braille Translation
|
428 |
+
P8-21 対訳関係にノイズのある対訳文からの新しい翻訳知識の学習
|
429 |
+
P8-22 GPTを用いた標準語から方言への翻訳
|
430 |
+
P8-23 JaParaPat: 大規模日英特許対訳コーパス
|
431 |
+
P8-24 証憑を用いた日本語OCR誤り訂正ベンチマークの構築
|
432 |
+
P8-25 サーベイ論文で引用すべき論文の推薦
|
433 |
+
P8-26 診療テキストからの必要な検査項目の予測
|
434 |
+
P8-27 Target-Driven Contexts in Detecting Informational Bias
|
435 |
+
A9-1 言語モデルが生成したテキストを書き換えるタスク非依存の復号手法
|
436 |
+
A9-2 R2T: 言語モデルの確率操作による学習なし中間文生成
|
437 |
+
A9-3 Advancing Robustness and Instruction-following in LLM-Powered Multi-Style Text Rewritting
|
438 |
+
A9-4 Recurrent Memory Transformer for Incremental Summarisation of extremely long text
|
439 |
+
A9-5 特許請求の範囲の自動書き換え生成モデルのための大規模データセットの構築
|
440 |
+
B9-1 大規模言語モデルを利用した音声対話システムのメタ制御
|
441 |
+
B9-2 生成的後処理ネットワークによるタスク指向型対話システムの最適化
|
442 |
+
B9-3 Prefix Tuning とキャラクタ属性の加減算を利用したキャラクタ風発話生成
|
443 |
+
B9-4 タスク指向型対話システムへの項目反応理論の適用によるユーザのタスク達成能力の推定
|
444 |
+
B9-5 音声対話における応答速度改善に向けた先読み技術の検討
|
445 |
+
C9-1 文書分類のための要約に基づくデータ拡張
|
446 |
+
C9-2 文書のチャンクに基づく知識グラフを活用したRAG
|
447 |
+
C9-3 大規模言語モデルによる cross-lingual transfer の性能評価
|
448 |
+
C9-4 様々な災害ドメインのクロノロジーに対する優先度推定
|
449 |
+
C9-5 Ada or Bert:検索における文埋め込み計算手法の比較研究
|
450 |
+
D9-1 敵対的不変表現学習を用いたアスペクトベース感情分析
|
451 |
+
D9-2 テレビ番組の放送内容テキストを用いた視聴者属性別の視聴量変動の予測
|
452 |
+
D9-3 国会議事録を使用した政党ごとのスタンス変遷の分析
|
453 |
+
D9-4 大規模言語モデルを用いたマイクロブログに対する絵文字予測
|
454 |
+
D9-5 大規模言語モデルにより生成した疑似データを用いた自由記述アンケートの自動���約
|
455 |
+
E9-1 小規模言語モデルによる子供の過剰一般化のモデリング
|
456 |
+
E9-2 意味変化分析に向けた単語埋め込みの時系列パターン分析
|
457 |
+
E9-3 節埋め込みの意味論に動機づけられたプロービング
|
458 |
+
E9-4 逆強化学習による文章における人間らしさの推定
|
459 |
+
E9-5 Annotation of modal expressions in Indonesian
|
460 |
+
P9-1 大規模言語モデルを用いた病名予測の検討
|
461 |
+
P9-2 自動プロンプト最適化のソフトウェア設計
|
462 |
+
P9-3 多肢選択問題における言語モデルの頑健性の評価
|
463 |
+
P9-4 JMedLoRA:Instruction-tuningによる日本語大規模モデルの医療ドメイン適用
|
464 |
+
P9-5 ビジネスのドメインに対応した日本語大規模言語モデルの開発
|
465 |
+
P9-6 社会的状況を踏まえた大規模言語モデルによる日本語メール生成
|
466 |
+
P9-7 大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価
|
467 |
+
P9-8 ヒューリスティックと遺伝的アルゴリズムを用いた自動プロンプトチューニング手法
|
468 |
+
P9-9 日本の司法試験を題材としたGPTモデルの評価
|
469 |
+
P9-10 Chain-of-Thought過程の誘導によるLLMの性能改善と推論過程および性能の説明性向上
|
470 |
+
P9-11 RAGの連結方式および自動評価指標の定量評価
|
471 |
+
P9-12 マルチホップQAの根拠情報を用いたLLMの``偽''正解の分析
|
472 |
+
P9-13 Minimal-pair Paradigmデータセットにおけるトークン長バイアスの分析と改善
|
473 |
+
P9-14 In-Context Learning においてLLMはフォーマットを学べるか
|
474 |
+
P9-15 文脈内学習における文脈内事例の寄与度推定
|
475 |
+
P9-16 シングルGPUによる日本語コードLLMの構築
|
476 |
+
P9-17 文脈内学習に基づく大規模言語モデルの性別バイアス抑制
|
477 |
+
P9-18 Constitutional AIにおけるセーフティアラインメントの改善
|
478 |
+
P9-19 検索拡張生成における指示追従性を測るベンチマークに向けて
|
479 |
+
P9-20 大規模言語モデルを用いた二段階要約における hallucination の分析
|
480 |
+
P9-21 算術推論問題における自己回帰型言語モデルの内部機序
|
481 |
+
P9-22 英語中心の大規模言語モデルの言語横断汎化能力
|
482 |
+
P9-23 大規模言語モデル群へのrouting タスクにおける埋め込みモデルと多数決併用の分析
|
483 |
+
P9-24 多言語ゼロショット学習における推論言語に関する分析
|
484 |
+
P9-25 意味的プロービングデータセットの構築と言語モデルの評価: イタリア語の倒置を例に
|
485 |
+
P9-26 対話モデルにおけるキャラクター特性の実現法の探索
|
486 |
+
P9-27 大規模言語モデルを用いた有効反論箇所としての前提生成
|
487 |
+
A10-1 前後段落を用いて生成した単語分散表現による日本語語義曖昧性解消の検証
|
488 |
+
A10-2 自己注意機構のアテンション重みが特定の種類のトークンに集中する現象と外れ値次元の関係
|
489 |
+
A10-3 低頻度語彙埋め込みの縮約による事前学習済みモデルの圧縮
|
490 |
+
A10-4 平均プーリングによる文埋め込みの再検討: 平均は点群の要約として十分か?
|
491 |
+
A10-5 語義の箱埋め込み学習とその応用
|
492 |
+
A10-6 部分空間法に着想を得たTransformerのアテンションヘッドにおける特徴抽出
|
493 |
+
B10-1 ただ一つのプロンプトによるタスク指向型対話システムの実現
|
494 |
+
B10-2 日本語日常対話コーパスへの基礎解析アノテーション
|
495 |
+
B10-3 大規模言語モデルを用いた対話システムの語彙レベル制御
|
496 |
+
B10-4 RealPersonaChat: 話者本人のペルソナと性格特性を含んだ雑談対話コーパス
|
497 |
+
B10-5 JMultiWOZに対する対話状態アノテーションの付与と対話システムの実装評価
|
498 |
+
B10-6 敵対的発言を取り入れた議論による言語モデルの学習強化と推論力の向上
|
499 |
+
C10-1 Multilingual CommonsenseQA
|
500 |
+
C10-2 ニューラル機械翻訳のための日中対訳コーパスの拡充
|
501 |
+
C10-3 『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号悉皆付与
|
502 |
+
C10-4 Word2Vecと対訳単語対を利用した対義語の自動抽出
|
503 |
+
C10-5 大規模言語モデルを用いたタグ付けによるデータの品質向上
|
504 |
+
C10-6 GPT-4による診療文書からのオントロジー自動構築の初期検討
|
505 |
+
D10-1 通訳品質評価に関するデータ収集と分析
|
506 |
+
D10-2 嗜好データセットの学習に基づく応答文のアライメント ‐日本語大規模言語モデルへの適用と安全性の評価‐
|
507 |
+
D10-3 Beyond ROUGE: Applying an ELO algorithm to rank model performances in summarization
|
508 |
+
D10-4 英日翻訳方略体系に基づく「直訳」「意訳」の訳出分析
|
509 |
+
D10-5 Adversarial Evaluation of Dialogue System Metrics
|
510 |
+
D10-6 Polos: 画像キャプション生成における教師あり自動評価尺度
|
511 |
+
E10-1 大規模言語モデルの文処理は人間らしいのか?
|
512 |
+
E10-2 Tree Planted Transformer: 統語的大規模言語モデルの構築に向けて
|
513 |
+
E10-3 自然言語、述語項構造、グラフ(項同士を線や矢印で結んだ表現形式)の表現能力や表現効率性
|
514 |
+
E10-4 小規模言語モデルによる統語パラメータの獲得
|
515 |
+
E10-5 言語モデルの文法知識評価における間接肯定証拠の分析
|
516 |
+
P10-1 ChatGPTと表整理技術を利用した株価に関わる新聞記事の分析
|
517 |
+
P10-2 LDA を使った専門用語の教師なしクラスタリング
|
518 |
+
P10-3 言語モデルからの知識削除:頻出実体の知識は副作用が破滅的
|
519 |
+
P10-4 知識グラフ構築に向けた物語文の構造分析
|
520 |
+
P10-5 探査子法を用いた音楽から学習可能な言語モデルの構文的性質の解析
|
521 |
+
P10-6 事前学習済みの分散表現は表層的な知識を獲得しているか
|
522 |
+
P10-7 大規模言語モデルを用いたマイソクPDFからの情報抽出
|
523 |
+
P10-8 Empirical Study on Text Classification of Small Science Domain Datasets
|
524 |
+
P10-9 LLMは日本語追加学習により言語間知識転移を起こすのか?
|
525 |
+
P10-10 訓練可能なk近傍Retrieverで関係抽出事例を導入したニューラルプロンプティング
|
526 |
+
P10-11 他文書の予測を知識グラフに蓄積・利用する文書単位関係抽出
|
527 |
+
P10-12 生成AIによる化学文書への自動アノテーションとその評価
|
528 |
+
P10-13 機密情報検知における生成AIを用いたデータ拡張
|
529 |
+
P10-14 CVAEによる複数データセットからの固有表現抽出
|
530 |
+
P10-15 ニュース記事テキストにおける組織名の抽出
|
531 |
+
P10-16 一部のエンティティに紐づくテキスト情報を知識グラフ埋め込みに活用するための手法
|
532 |
+
P10-17 文献グラフにおける多項関係の埋め込み
|
533 |
+
P10-18 衣服を対象とした商品レビューからの長所・短所の抽出
|
534 |
+
P10-19 複数の形式・表現の質問を利用した多角的な関係抽出
|
535 |
+
P10-20 テキストアナリティクスツールの説明文に含まれる設定キーの認識
|
536 |
+
P10-21 ChatGPTを用いた複数文章からの表生成
|
537 |
+
P10-22 敵対的生成ネットワークを用いた記号的知識蒸留
|
538 |
+
P10-23 知識グラフに基づくルールベースよるFact Verificationとその拡張手法の考察
|
539 |
+
P10-24 表層が同じ文字列の同一性を表現した深層固有表現抽出
|
540 |
+
P10-25 妊娠・出産・育児に関する情報サイトにおける自治体による子育て支援効果の調査
|
541 |
+
P10-26 Sentence-BERTと語義定義文を利用した語義間の類義判定手法
|
542 |
+
P10-27 言語構造に制約されない大規模言語モデルの知識編集
|
543 |
+
A11-1 Dynamic Inference Thought in Large Language Models
|
544 |
+
A11-2 大規模言語モデル事前学習の安定化
|
545 |
+
A11-3 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃
|
546 |
+
A11-4 大規模言語モデルにおける評価バイアスの尤度に基づく緩和
|
547 |
+
A11-5 事前学習済みLlama2モデルを活用した言語間転移日英モデルの作成
|
548 |
+
A11-6 言語モデルの思考連鎖的推論における探索戦略の動的変化
|
549 |
+
B11-1 雑談応答生成モデルによる矛盾応答の大規模収集
|
550 |
+
B11-2 ChatGPTを用いた日本語対話応答の多面的自動評価
|
551 |
+
B11-3 雑談中の発話と文脈から話者情報を抽出する LLM の能力に関する検証
|
552 |
+
B11-4 過去対話セッションからの想起と深化を行う対話モデル
|
553 |
+
B11-5 非タスク指向型対話における話題の深さ推定モデルの構築
|
554 |
+
B11-6 chat-AMAN: 管制官との双方向コミュニケーションで実現する協働型の航空管制支援システムの構築
|
555 |
+
C11-1 生成モデルは医療テキストの固有表現抽出に使えるか?
|
556 |
+
C11-2 IDレベル関係抽出における不要な文の自動選択
|
557 |
+
C11-3 事前学習言語モデルとグラフニューラルネットワークの組合せによる専門知識の抽出
|
558 |
+
C11-4 データ拡張による固有表現抽出の不確実性推定
|
559 |
+
C11-5 変数定義抽出におけるテンプレート文を活用したデータ拡張法
|
560 |
+
C11-6 知識志向 Mixture of LoRA Experts の構築
|
561 |
+
D11-1 テキスト編集事例の編集操作への自動分解
|
562 |
+
D11-2 LCTG Bench: 日本語LLMの制御性ベンチマークの構築
|
563 |
+
D11-3 LLMが機械翻訳を捉えた桎梏から脱したのか―翻訳創造性について―
|
564 |
+
D11-4 Evaluation of ChatGPT Models on Sentence Simplification
|
565 |
+
D11-5 国際会議における質疑応答練習を目的とした ChatGPT による質問生成とその評価
|
566 |
+
D11-6 事前学習済みモデルを用いた日本語直喩表現の解釈
|
567 |
+
E11-1 教育現場における質問の性質分析と大規模言語モデルを活用した質問回答システムの検討
|
568 |
+
E11-2 複数言語コードを含む発話転写と話者分離:Whisper+Pyannote.audioによる自動音声認識の高度化
|
569 |
+
E11-3 Prompting Brilliance Unlocking ChatGPT's Potential to Revolutionize EFL Dialogue Practices
|
570 |
+
E11-4 自然言語処理の教育応用において学習者集団に非依存な難度の尺度は本当に必要か?
|
571 |
+
E11-5 英語学習者の発話に��られる非流暢性に関する考察:自己訂正と反復・フィラーの関係性
|
572 |
+
E11-6 論理構造グラフを用いた自動採点モデル
|
573 |
+
P11-1 ChatGPTを用いた小説関連研究:教育的小説の生成、マダミスの生成、推理小説での犯人推定
|
574 |
+
P11-2 処理途中での非文生成の回避を考慮した係り受け解析・語順整序・読点挿入の同時実行
|
575 |
+
P11-3 大規模言語モデルを用いた規則適合判定と理由の生成
|
576 |
+
P11-4 漸進的係り受け解析と残存文長推定に基づく講演文への逐次的な改行挿入
|
577 |
+
P11-5 手順のテキスト化による将棋解説文生成
|
578 |
+
P11-6 二つの時系列データを対象とした特定着目点の動向についての記述文生成
|
579 |
+
P11-7 kNN言語モデルは低頻度語の予測に役立つか?
|
580 |
+
P11-8 RAGにおける小説データベースのChunk SizeとOverlap SizeとEmbeddingモデルの効果
|
581 |
+
P11-9 BERTScoreとキーワード採用率を用いた語義タグ付き用例文生成手法
|
582 |
+
P11-10 文を入力とした俳句の自動生成
|
583 |
+
P11-11 テキスト生成モデルを利用したデータセット蒸留
|
584 |
+
P11-12 Shift-Reduce法に基づく未入力トークン予測と漸進的係り受け解析の同時実行
|
585 |
+
P11-13 Large Language Models as Generalizable Text-to-Table Systems
|
586 |
+
P11-14 日本語GPTの蒸留における損失関数の比較
|
587 |
+
P11-15 大規模言語モデルへの定量的推論機能の組み込み
|
588 |
+
P11-16 入出力文の関係を考慮した複数文要約でのデータ拡張
|
589 |
+
P11-17 LLMを利用した文書分類のためのData Augmentation
|
590 |
+
P11-18 訴求軸を考慮したキーワードからの広告文生成
|
591 |
+
P11-19 文書情報構造認識のためのAI chatbotプロンプト評価
|
592 |
+
P11-20 検出器の判断に基づく大規模言語モデルの生成テキストの特徴分析
|
593 |
+
P11-21 おもしろい川柳の生成
|
594 |
+
P11-22 創造的な文生成タスクに対するLLMプロンプトの自動生成
|
595 |
+
P11-23 Retrieval-augmented generation に基づくカスタマーサポートにおける返信メール自動生成の検討
|
596 |
+
P11-24 大規模言語モデルを用いた関連研究セクション生成
|
597 |
+
P11-25 コード生成のための大規模言語モデルを用いた検索手法
|
598 |
+
P11-26 RLHFを用いた「面白い」短歌の自動生成の試み
|
599 |
+
P11-27 Event-Centered Prompting for Text Style Transfer
|
app.py
ADDED
@@ -0,0 +1,80 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import faiss
|
2 |
+
import numpy as np
|
3 |
+
import pandas as pd
|
4 |
+
import streamlit as st
|
5 |
+
import torch
|
6 |
+
from torch import Tensor
|
7 |
+
from transformers import AutoModel, AutoTokenizer
|
8 |
+
|
9 |
+
import os
|
10 |
+
|
11 |
+
os.environ['KMP_DUPLICATE_LIB_OK']='True'
|
12 |
+
|
13 |
+
|
14 |
+
def average_pool(last_hidden_states: Tensor,
|
15 |
+
attention_mask: Tensor) -> Tensor:
|
16 |
+
last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
|
17 |
+
return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
|
18 |
+
|
19 |
+
|
20 |
+
@st.cache(allow_output_mutation=True)
|
21 |
+
def load_model_and_tokenizer():
|
22 |
+
tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-large')
|
23 |
+
model = AutoModel.from_pretrained('intfloat/multilingual-e5-large')
|
24 |
+
model.eval()
|
25 |
+
|
26 |
+
return model, tokenizer
|
27 |
+
|
28 |
+
|
29 |
+
@st.cache(allow_output_mutation=True)
|
30 |
+
def load_title_data():
|
31 |
+
title_df = pd.read_csv('anlp2024.tsv', names=["pid", "title"], sep="\t")
|
32 |
+
|
33 |
+
return title_df
|
34 |
+
|
35 |
+
|
36 |
+
@st.cache(allow_output_mutation=True)
|
37 |
+
def load_title_embeddings():
|
38 |
+
npz_comp = np.load("anlp2024.npz")
|
39 |
+
title_embeddings = npz_comp["arr_0"]
|
40 |
+
|
41 |
+
return title_embeddings
|
42 |
+
|
43 |
+
|
44 |
+
@st.cache
|
45 |
+
def get_retrieval_results(index, input_text, top_k, tokenizer, title_df):
|
46 |
+
batch_dict = tokenizer(f"query: {input_text}", max_length=512, padding=True, truncation=True, return_tensors='pt')
|
47 |
+
with torch.no_grad():
|
48 |
+
outputs = model(**batch_dict)
|
49 |
+
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
|
50 |
+
embeddings = F.normalize(embeddings, p=2, dim=1)
|
51 |
+
|
52 |
+
_, ids = index.search(x=np.array([query_embeddings]), k=top_k)
|
53 |
+
retrieved_titles = []
|
54 |
+
retrieved_pids = []
|
55 |
+
|
56 |
+
for id in ids[0]:
|
57 |
+
retrieved_titles.append(title_df.loc[id, "title"])
|
58 |
+
retrieved_pids.append(title_df.loc[id, "pid"])
|
59 |
+
|
60 |
+
df = pd.DataFrame({"pids": retrieved_pids, "paper": retrieved_titles})
|
61 |
+
|
62 |
+
return df
|
63 |
+
|
64 |
+
|
65 |
+
if __name__ == "__main__":
|
66 |
+
model, tokenizer = load_model_and_tokenizer()
|
67 |
+
title_df = load_title_data()
|
68 |
+
title_embeddings = load_title_embeddings()
|
69 |
+
|
70 |
+
index = faiss.IndexFlatL2(768)
|
71 |
+
index.add(title_embeddings)
|
72 |
+
|
73 |
+
st.markdown("## NLP2024 類似論文検索")
|
74 |
+
input_text = st.text_input('input', '', placeholder='ここに論文のタイトルを入力してください')
|
75 |
+
top_k = st.number_input('top_k', min_value=1, value=10, step=1)
|
76 |
+
|
77 |
+
if st.button('検索'):
|
78 |
+
stripped_input_text = input_text.strip()
|
79 |
+
df = get_retrieval_results(index, stripped_input_text, top_k, tokenizer, title_df)
|
80 |
+
st.table(df)
|
poetry.lock
ADDED
The diff for this file is too large to render.
See raw diff
|
|
prepare_pool.py
ADDED
@@ -0,0 +1,39 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import torch.nn.functional as F
|
2 |
+
|
3 |
+
import torch
|
4 |
+
from torch import Tensor
|
5 |
+
from transformers import AutoTokenizer, AutoModel
|
6 |
+
|
7 |
+
import numpy as np
|
8 |
+
import pandas as pd
|
9 |
+
|
10 |
+
|
11 |
+
def average_pool(last_hidden_states: Tensor,
|
12 |
+
attention_mask: Tensor) -> Tensor:
|
13 |
+
last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
|
14 |
+
return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
|
15 |
+
|
16 |
+
|
17 |
+
paper_df = pd.read_csv('anlp2024.tsv', names=["pid", "title"], sep="\t")
|
18 |
+
assert len(paper_df) == 599
|
19 |
+
|
20 |
+
# paper_df の title 列にあるテキストをリストに変換した上で、各文字列の戦闘に "passage: " をそれぞれ付け加えて input_texts とする
|
21 |
+
input_texts = [f"passage: {title}" for title in paper_df["title"].tolist()]
|
22 |
+
assert input_texts[0] == "passage: 市況コメント生成のための少数事例選択"
|
23 |
+
assert input_texts[-1] == "passage: Event-Centered Prompting for Text Style Transfer"
|
24 |
+
|
25 |
+
|
26 |
+
tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-large')
|
27 |
+
model = AutoModel.from_pretrained('intfloat/multilingual-e5-large')
|
28 |
+
|
29 |
+
# Tokenize the input texts
|
30 |
+
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
|
31 |
+
|
32 |
+
with torch.no_grad():
|
33 |
+
outputs = model(**batch_dict)
|
34 |
+
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
|
35 |
+
embeddings = F.normalize(embeddings, p=2, dim=1)
|
36 |
+
|
37 |
+
assert embeddings.shape == (599, 1024)
|
38 |
+
|
39 |
+
np.savez("anlp2024", embeddings.detach().numpy().copy())
|
pyproject.toml
ADDED
@@ -0,0 +1,22 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[tool.poetry]
|
2 |
+
name = "nlp2024-title-search"
|
3 |
+
version = "0.1.0"
|
4 |
+
description = ""
|
5 |
+
authors = ["Kaito Sugimoto <hellorusk1998@gmail.com>"]
|
6 |
+
readme = "README.md"
|
7 |
+
packages = [{include = "nlp2024_title_search"}]
|
8 |
+
|
9 |
+
[tool.poetry.dependencies]
|
10 |
+
python = "^3.10"
|
11 |
+
transformers = "^4.37.2"
|
12 |
+
beautifulsoup4 = "^4.12.3"
|
13 |
+
requests = "^2.31.0"
|
14 |
+
pandas = "^2.2.0"
|
15 |
+
torch = "^2.2.0"
|
16 |
+
faiss-cpu = "^1.7.4"
|
17 |
+
streamlit = "^1.31.0"
|
18 |
+
|
19 |
+
|
20 |
+
[build-system]
|
21 |
+
requires = ["poetry-core"]
|
22 |
+
build-backend = "poetry.core.masonry.api"
|
requirements.txt
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
faiss-cpu==1.7.4
|
2 |
+
transformers==4.37.2
|
3 |
+
torch==2.2.0
|
scrape.py
ADDED
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
from bs4 import BeautifulSoup
|
2 |
+
import requests
|
3 |
+
|
4 |
+
url = "https://www.anlp.jp/proceedings/annual_meeting/2024/"
|
5 |
+
|
6 |
+
response = requests.get(url)
|
7 |
+
response.encoding = response.apparent_encoding
|
8 |
+
html_content = response.text
|
9 |
+
|
10 |
+
|
11 |
+
soup = BeautifulSoup(html_content, 'html.parser')
|
12 |
+
|
13 |
+
extracted_pairs = []
|
14 |
+
|
15 |
+
for table in soup.find_all('table'):
|
16 |
+
for tr in table.find_all('tr'):
|
17 |
+
pid_span = tr.find('span', id=True)
|
18 |
+
title_span = tr.find('span', class_='title')
|
19 |
+
if pid_span and title_span:
|
20 |
+
pair = (pid_span.get_text(), title_span.get_text())
|
21 |
+
if pair[0] and pair[1]:
|
22 |
+
extracted_pairs.append(pair)
|
23 |
+
|
24 |
+
|
25 |
+
with open("anlp2024.tsv", "w") as f:
|
26 |
+
for pair in extracted_pairs:
|
27 |
+
f.write(f"{pair[0]}\t{pair[1]}\n")
|