言語処理学会第28回年次大会(NLP2022)参加レポート! 全体感想、発表のピックアップ、印象など
はじめに
こんにちは、株式会社オプトAIソリューション開発部所属の Melvin Charles DY です。「ディ」は苗字ですが、短くてたまに聞き取りづらいので、「メルヴィン」か「メルビン」と読んでもらっています。
Opt Technologies Magazine では2件の記事(過去プロジェクトの反省記事、The Illustrated BERTの日本語版)を書いています。今回の記事は先日参加したNLP2022のイベントレポートです! とはいえ、学会は先週に行われたばかりということもあって各論文の詳細をカバーする時間はまだ取れていないので、第一印象や第二印象を中心に本記事を書いています。
本記事はいくつかのセクションに分けます。まずは、印象に残った口頭発表をピックアップします。その次に、聴講したチュートリアルと招待講演とワークショップの内容について良かったポイントをまとめてみます。最後に、これもまた自分の話になりますが、発表者としての感想を述べます。本記事のトップ画像は、Gatherで行われたポスターセッションのスクリーンショットです。
では早速、口頭発表のピックアップに移ります!
発表ピックアップ
この学会のベストと言っているわけではなく、あくまでも印象に残った発表なので、当然、自分の個人的な好みが混じっています。悪しからず。紹介順も特に意味がなく、どちらかと言うと見た順番から選抜しました。
※手前味噌にもほどがあると思ったので、自分の論文はピックアップしません。ただし、近いうちにどこかの勉強会で発表することを検討しています。乞うご期待!
Representative Data Selection for Sequence-to-Sequence Pre-training
Haiyue Song (京大), Raj Dabre (NICT), Zhuoyuan Mao, Chenhui Chu, Sadao Kurohashi (京大)
まさにモデルの学習コストに着目した研究でした。提案手法のポイントは、sent2vecで連続値エンベディング似の変換、教師なしクラスタリング、Faissを用いた各クラスタから代表事例の選抜、の3つでした。その他に、アウトライアー除去の実験もやりました。
細かい結果はぜひ論文にて確認してください。ボトムラインで言うと、本来の学習に消費される電力の4.4%(マシーンスペックと学習ステップ数で計算)と本来のデータセットの0.26%(458M中1.2M)で、BLEUとROUGEでの精度は90%キープできた、という驚愕の結果でした。
以下は、自分のコメントと感想です。
何が驚愕かというと、フルデータセットの0.26%には、学習できる情報の90%が込められていることです。データの量こそ機械学習のカギと言われていますが、これを見ると情報の重複の多さを想像させられますね。また、クラスターからの代表事例選抜とアウトライアー除去にたいしてなんとなく思いつきましたが、representation不足とバイアスの強調が気になりますね。気を付けないと元にあった微かなrepresentationが抹消されて、もともとコーパスにあった強いバイアスから抜け出せなくなる可能性は要注意だと思いました。逆に全体のデータ量は減らせるので、バイアスなどを相殺するための事例は追加しやすくなるかもしれません。
Transformerモデルのニューロンには局所的に概念についての知識がエンコードされている
有山知希 (東北大), Benjamin Heinzerling (理研/東北大), 乾健太郎 (東北大/理研)
Transformerは多くの研究に採用されていますが、内部的な挙動についてはまだ謎が多いです。Transformerのfeed-forward層はメモリー機構の役割を果たしていると報告した先行研究はありますが、実際はどのようにエンコードされているかはまだ確認されていませんでした。
そこで、この論文の著者たちは、「概念」のTransformerのFF層におけるエンコーディングについて調べました。まずは、穴埋め問題を実行したとき、どのニューロンが活性化したのかを観察しました。それから、ニューロンの活性化を抑制して、同じ穴埋め問題を解かせた場合の回答を、前の結果と比較しました。また、それとは逆に活性化の具合を増幅させて、正解がより出力されやすくなるのかも実験されました。
742個の概念で検証した結果、論文のタイトル通り、概念の知識は局所的にエンコードされていることが確認されました。
以下は、自分のコメントと感想です。
とても興味深い結果でした。これを起点にし、より細かい挙動の検証が望めそうですね。例えば、概念の間の階層関係はどうエンコードされているのでしょうか。「豹」の概念を上記手法で抑制した場合、正解の「豹」の代わりに「猫」が出力されるのか、それとも「猫」や「動物」という回答も出にくくなるのでしょうか。
また、違う言語やハイパーパラメータ設定で同じ傾向は見られるのでしょうか。今回はbert-base-uncasedと英語のデータが使われましたが、日本語の場合はどう変わるのか気になります。複数の表記体系もあって、書き方によって「概念」は区別されるのか一体化されるのか……入力されるデータの順番によって、概念のニューロンの位置は変わるのか……層の横幅によって概念局所的にエンコードされ続けるのか……局所的にエンコードされいていれば、何かしらの障害によってニューロンが欠落した場合、生物の脳のように自己修復はできるかどうか……
Transformerを超える新しいアーキテクチャが現れる前に全部の質問は回答されないでしょうが、ここで得た知見は今後のAI研究にインパクトを与えることは間違いないです。
主観と客観の感情極性分類のための日本語データセット
宮内裕人, 鈴木陽也, 秋山和輝, 梶原智之, 二宮崇 (愛媛大), 武村紀子, 中島悠太, 長原一 (阪大)
Plutchikの「感情の輪」論の8つの基礎的な感情(4段階)とネガティブポジティブ極性(5段階)で構成された35,000件のデータセット作成の試みでした。SNS投稿をした本人から主観感情ラベルを付与しもらったうえに、3人のアノテーターに客観感情ラベルを付けてもらったようです。作成したデータセットの分析、分類実験の結果も記載されています。
以下は、自分のコメントと感想です。
私はaffective computing(アフェクティブ・コンピューティング、人間の感情や情緒を取り扱うコンピューティング分野)に強い関心をもっています。広告代理店で働いているからではなく、個人的に興味をもっています。むしろ広告代理店に転職したのは、その分野に一歩近づけるためでした。
本題に戻ります。データセット作成系の論文はあまり重要視さられてないイメージです。ですが、データセットがないと機械学習でできることは限られてきます。日本語のデータセットは少ないので日本の問題を解決しようと思っても、データをゼロから作るか多言語のデータセットをかろうじて応用するハメになる場合すらあります。
なので、この論文をピックアップしました。主観感情ラベルと客観感情ラベルのコントラスト、極性だけではなく8つの軸、しかも排他的なアノテーションではなく、感情が交じり合うことも考慮されました。もちろん、客観アノテータは3人しかいない点や、SNSの投稿なのである程度performativeさ・コンテキスト依存性がある点などの不安を持っています。とはいえ、このコーパスが熟成したら使い道は色々ありそうです。
チュートリアル
チュートリアルは合計4つありましたが、2つずつ同時に行われていたので、2つしか聴講できていません。ですが、その2つはためになるセッションだったので、ここで紹介します。
まずは、ヤフー株式会社の柴田知秀先生が語った「ゼロから始める転移学習」です。ゼロから、というのは言い過ぎかもしれないですが、転移学習の歴史に渡る出来事や概念の解説が中心のプレゼンテーションでした。自分もある程度、自然言語処理に慣れてきたつもりですが、アテンション機構の図と動作などを含めて色々なコンセプトの良い復習になりました。なんとなく知っていたことが結晶化させられてハッキリになった気すらしました。
その次は、立命館大学の岡本雅史先生のプレゼンテーション「ボケとツッコミの言語学〜漫才研究が照らす日常会話のメカニズム」でした。すこし自分の話をしますが、自分は外国出身なので「漫才」というコメディの形式についてはあまり詳しくはありません。ただ、ボケとツッコミの立ち位置ぐらいは理解できていました。ですが、ずっとエンターテインメント目線から見ていて、サイエンス目線から考えたことはありませんでした。ツッコミの分類やおかしみの構造、情報の伝達など漫才の分析から得られるコミュニケーションの解析的な見方……違う意味で漫才の面白さが垣間見えました。
チュートリアルを経て、次は招待論文のコーナーです。
招待講演
招待講演1は、東京大学の田中久美子先生による「自然言語を複雑系として捉える試み」でした。この講演の前半は優しく言えば「予備知識が必要」で、素人である私には分かりにくかったです。「還元論」のアリクイ対「全体論」のカニからZipf則など、聞きなれない単語ばかりで、ずっと圧倒されていました。今は資料を読み返していて、色々腑に落ちましたが、発表の当時でも「自然言語を複雑系としての試み」は分かりました。平たく言うと、複雑系科学で自然言語と言語モデルを分析し、それらの類似性(互換性?)を計ろうとしているように見えました。要するに、各言語モデルは自然言語を表現できているかを計測するために、そのモデルの中の単語の「Zipf則(希少性)」と「Taylor則(塊現象)」によるメトリクスが自然言語のベースラインに近いかどうかを見ようとしています。特定な事例(validate/testデータセット)に対するパフォーマンスではなく、そのモデルの全体から見た傾向やパターンはいかに自然言語ベースラインと似ているかどうかの計測方法の提案のようなものです。
GPT2を含めて数種類の言語モデルやってみたら、希少性を捉え切れていないことや単語の頻度平均に対する標準偏差
Taylor則はよく知らないですが、Taylor則で表す「ゆらぎ」を意味合いの揺らぎと捉えてみれば……揺らぎが大きいことから察すると、その単語の学習は複数のlocal optimaにハマっていて、真の意味合いに基づいて単語を類似語の変わりに出力することができず、特定のコンテキストでしか現れない・出力できないことを示しているのでしょうかね。確かに、自然言語では同じ単語でもコンテキストによって意味合いはだいぶ変わる可能性はありますが、モデルにおいて「揺らぎ」が大きいことからみると、多義性を持つ単語よりほぼ違う単語に捉えていることが分かります。
例えるなら、赤ちゃんに「赤い車のおもちゃ」と「赤いポスト」を見せて「赤い」という概念を学習できたと思って「リンゴの色は何色だ」と聞いてみても、色が一致しないからなのか、もの自体が違うからなのか、「赤い」という答えは出ません。このような概念取得は、モデルの場合にするなら、それぞれがローカルルールとして学ばれてしまい必要以上のパラメータ数を食ってしまいそうです。
最後に、昨今の汎用言語モデルに肥大化に対して、「包括的一体として」の言語システムは手法として限界に近づいているという危機に応えるべく、研究はモデルの圧縮と包括と複合の良いバランスの探索という方向性にすすむでしょう、と先生は論じました。
招待講演2は、馬塚れい子先生(理化学研究所/Duke University)による「自然言語処理研究が乳幼児の言語発達研究から学べることは何か」でした。応用科学の印象が強い言語処理学会にて、使い道を気にせず興味本位で言語の基礎研究を聴けて、いい息抜きになりました。と言いながら、面白みが欠けていたわけではなく、自然言語に興味を持つ人(言語処理学会だから大体全員でしょう)には刺さったと思います。
その内容の1つ目は「赤ちゃんはいつ母音の長短を聞き分けることができるようになるのか」でした。母音の長さによって音素が異なる現象は、実は世界中の自然言語の間では結構珍しいです。日本語はその一つです。先行研究においては、母子会話の中の長短母音の割合は半々に近かったのに対して、馬塚先生が携わった「理研母子会話コーパス(R-JMICC)」においては、長母音が10%未満で短母音は90%以上でした。その差異の原因はタスクの設定でした。先行研究ではお母さんがおもちゃなど、ものの名前を赤ちゃんに聞かせていました。ですが、R-JMICCでは、よりフリーな会話を重視したため、結果は違いました。
その他に、日本人は英語が苦手の原因の一つである母音挿入、地方性による高低アクセントの有無と脳内処理の違い、実行機能と全称記号(universal quantifier, 例えば every / どの~も)の関連性など、言語発達研究の結果がピックアップされました。音声認識に携わっている研究者たちにとって特に興味深かったと思います。
これらを通じて、利用するコーパスとタスクデザインの重要性に注意をするべきというメッセージが込められていました。解釈をちょっと変えると、利用するデータセットはだれが基準になっているのか、そして網羅したいケースは充分かつ平等に網羅されているのかを考えさせられます。日本語の自然言語処理を行っている方たちは痛感していると思いますが、日本語のコーパスは割と少ないですが、それを言い訳にしてコーパスのアンバランスさを侮ってはいけません。
ワークショップ
大会の最終日には2つのワークショップが同時開催されていました。私は「NLPにおける再現性」のほうに参加しました。各発表のサマリーはリンク先のページに記載されているので、興味ある方々はワークショップのホームページをご覧ください。ワークショップだったので、プレゼンとそれらの後の質疑応答・討論だけではなくSlackでリアルタイムな意見交換も行われていました。
大きく分けてテーマは2つありました。1つは最新モデルの学習に必要な計算資源とそれに伴う費用の高さでした。もう1つはもっと根本的に「再現性」の実用的な定義についてでした。
最近では、毎週のように新しいstate of the art言語モデルが公開されています。それは研究の進歩が速くてよいのではないかと思う方もいます。ですが、モデルが徐々に大きくなっていて、新しい技術が開発されたというよりより多くのデータと計算資源を使っただけではないか、という懐疑的な意見も増えています。この3年でパラメータ数が10,000倍も膨れあがりました。結果として、ゼロからの検証または根本的な部分の改造をしたいと思っても、多くの研究組織(まして個人)の予算をはるかに凌駕するため、一部の企業にしかできない、といった状況になってきています。実行できる人や組織が限られると、再現性は必然的に低くなるし、イノベーションが起こりにくくなります。もちろん、コンピューティングに伴う自然環境へ影響の面もあります。
もう一方の大テーマだった「再現性」の定義の話に移ります。学会やジャーナルによって「再現」の基準は異なりますが、「同じ条件で同じ結果が出るかどうか」という定義は共通でしょう。ですが、全く同じ条件に揃えようとしても、制御不可能な要素は残ります。例えばコンピューティングに関して、同じデータセット、同じモデルアーキテクチャ、同じ擬似乱数seed値に揃えたとしても、CPUやGPUの能力的・物理的な違いによって、並列で行われている処理のタイミングが異なり、データが実際に処理される順番が変わる可能性も考えられます。また昨今、クラウドコンピューティングで学習を行っているケースも多くなっていますが、クラウド上のマシンスペックや通信ネットワークなど全てを同じにするのはほぼ不可能だと考えられます。
一字一句の結果の再現ではなく「知見」の再現を目指す、という案もありました。そうすれば、とあるデータセットに対する精度だけはなく、そのアイディアの汎用性も確認できます。そうは言ったものの、実験のパラメータをどこまで替えていいのかの結論は出ませんでした。ですが、ワークショップ参加者は再現性の意識は強化されたと思います。
ポスター発表者として
ここで話題をガラッと替えて、一息つきましょう!
今年度の大会には、ポスター発表の機会をもらえました。発表番号がPT4-6で、去年末に執筆した「Predicting Click-through Rates of Text Search Ads Using Handcrafted Features」(ハンドクラフト特徴量を用いたテキスト検索連動型広告のCTR予測)の発表でした。論文自体は英語で書きましたが、ポスターは日本語で作成し発表しました。念のため英語版のポスターも用意しましたが学会の提出ガイドライン上、ポスターは1枚までなので英語版のポスターは発表当時でしか見せることができませんでした(実際、1人の来訪者が英語での発表を希望しました)。
自分の論文はそこまでボリューミーではありませんでしたが、重要な情報をスライド1枚に収めるのは結構大変でした。本当に伝えたいことを中心に、伝えたくても「本話題」ではない要素を泣く泣くカットすることになりました。ポスターのファイルは参加者に公開されることもありますし、もちろん文字を小さくすればより多くの情報は載せられますが、Gatherという媒体での発表を考慮して文字数を大きいままにしておきました。
Gatherは他のWeb会議システムと同様、スクリーン共有はできますが映像の圧縮の関係で文字や図表がつぶれることもあります。そして、ポスター発表はどのタイミングで人が入ってくるのかわからないので、伝えたい内容を短く簡潔に話せれば来訪者の対応の小回りが利きます。
しかし内容はかなりニッチなので、やはり来訪者のほとんどは競合会社の方たちでした。ですが、この場は競合ではなく共有の場であり、務める会社を気にせず純粋に研究の結果を説明しました。競合会社同士だけあって似た問題を解決しようとしているので、有意義な質疑応答と意見交換ができました。
そして、始めての学会発表だったからか分からないですが、テンションが割と高かったです。再現性ワークショップで、統計学的なメトリクスの一つである「p値」は、英語話者に自分にとってずっと「ピーチ」(桃🍑)に聞こえていました。学会Slackでささやかにボケてみて大御所を含めて数人がリアクションしてくれて、普通にありがたかったです。そのすぐ後にだれかが「p値姫」スタンプを登録して、掛け合いをしてくれたことにも感謝です。現地参加が難しいこのご時勢、チャットツールは学会の楽しみ方になりつつありますね。
全体コメント
最後に、年次大会を通しての感想を述べさせていただきます。
結構ハードな4.5日間でした。朝から晩までオンライン開催の利点を活かして、見たい発表のセッションに飛んで行ったり来たりしていました。トンボかとツッコまれるような視聴の仕方でした😅。自分のNLPにおいての興味は浅くて広いので、その表れでしょうかね。そんなこともあり、興味を持った論文はまだ熟読できていませんが、全体の印象は出来ています。
まずは、去年に比べてBERTやGPTなどを使った論文の割合がより高くなっている印象はあります。一方で、モデルの肥大化と学習のコストに対抗すべく効率化を試みた研究もどんどん現れてきています。
実は、事前学習言語モデルを使った場合と同じ精度を達成できるより軽量なシステムの開発は、自分の研究のモチベーションの一つでした。他の論文でのデータセットのsubsamplingによる事前学習の軽量化、Transformerの構造を再編集して勾配消失を解決する(情報の伝達を良くするうえ、演算の数も減らせる)手法、など……潮の変わり目を見ているような気がしました。これからは計算コストという軸はより考慮されて研究の価値の判断基準に組み込まれるでしょう。
今年は特に刺激的な大会でした。来年の大会にも発表できるように、精を出して研究します!
Opt Technologiesに興味のある方は、こちらから「カジュアル面談希望」と添えてご応募ください!