Opt Technologies Magazine

オプトテクノロジーズ 公式Webマガジン

言語処理学会第29回年次大会(NLP2023)参加レポート! ChatGPT爆誕でそれどころじゃないだと?!

alt

言語処理学会第29回年次大会(NLP2023)参加レポート! ChatGPT爆誕でそれどころじゃないだと?!

はじめに

こんにちは、株式会社オプトAIソリューション開発部所属の Melvin Charles DY (メルヴィン チャールス ディ)です。今年のNLP大会の参加レポートも執筆させていただきました。

前回の言語処理学会第28回大会(NLP2022)参加レポート と同様、聴講した発表や読んだ論文の第1印象・第2印象をベースに書いています。そして、できるだけファクトと意見を分けて話したいのですが、どうしても私の色が多少入ってしまうと思います。解釈の違いなどがあるかもしれませんが、ご了承ください。

今大会では恒例の口頭発表、チュートリアル、招待講演とは別に「緊急パネル」が特別に設けられました。その背景にあるのは他でもない、ChatGPTです。ただし先に大会全体への所感を述べようと思います。

大会について全体的な感想

今大会はハイブリッド形式でした。沖縄での現地参加も視野に入れていましたが、諸事情で断念しました。

リモートで聴講に参加する分、去年同様スケジュールをかなりぎっしりに詰めてしまって、自宅からほぼ外出しなかったのに疲労は否めません。まぁ、リモートだからこそできる参加の仕方ですね。

リモートだからこその参加と言えば、大会Slackは結構盛り上がっていました。ガヤも多かったですが、中には鋭い洞察や貴重なアイディアもちらほらありました。

残念な点を挙げるなら、ポスター展示のところですかね。前回は全部Gatherで行っていましたが、今回は現地のポスターセッションもありました。ですが、現地から各ポスター発表の中継がなく、リモート聴講者は事前に共有されたポスターのファイルを閲覧して、ポスターセッション用のSlackチャネルに質問などを投げる形になりました。なんか味気ない気がしました。でもまあ、流石に現地の訪問者とリモート訪問者を同時に対応するのは難しいでしょうね……

自然言語処理と言えば、大会の開催の少し前に世界を揺るがせた出来事がありました。そう、ChatGPTの公開です。完全ではないとはいえ、かなりの精度で色んなタスクをこなせる、ちょっと嘘つきだけど有望な大規模言語モデルです。公開が大会間近だったため学会の予稿集や発表にはほとんど出ていませんでした。先代のGPT-2を調べた論文もありましたが、基本的にBERT系やT5が使われていた印象です。数年前のBERT系の爆誕時のように、来年の学会にはChatGPTを用いる論文が多く出そうですね。

ですが、今年の時点でChatGPTの名は大会中に響き渡っていました。興奮と不安半々で皆が気になるのは、「ChatGPTによって自然言語処理は終わったのか」という、この学問の存在意義をも揺るがすような疑問でした。

そんなこともあろうかと先読みした学会の委員の皆さんは、緊急パネルを開催することにしました。今回の目玉企画なので、早速その話題に移りましょう。

緊急パネル:ChatGPTで自然言語処理は終わるのか?

企画の情報 ※パネル開催時、GPT-4はまだ公開されていなかったため、先生方はGPT-3.5またはその前のバージョンを話している前提です。

melvin-dy-opt marked this conversation as resolved. 元々私の方でレポートを書いていましたが、パネルの動画が公開されましたので、私個人の観点からのレポートより、直接ご覧になった方が良いと思います。是非ご視聴ください。

発表・論文ピックアップ

さて、ここからは、気になった発表や論文を取り上げていきます。もちろん、私個人の意見や偏見が混ざっています。今大会の「ベスト」とか「影響が大きそう」ということではなく、単に自分の興味を引いたものです。見たか読んだ順番になります。

B1-1 計算資源が限られた複数組織での出力選択による協働の検討

伊藤郁海 (東北大), 伊藤拓海 (東北大/Langsmith), 鈴木潤, 乾健太郎 (東北大/理研)

問題設定を簡単に述べると、1つの大規模モデルに複数の(比較的)小規模モデルの協働が勝てるか、でした。前者はパラメータ数300Mに25Mの機械翻訳用の訓練データ(JParaCrawl)を学習したモデルで、後者は10個のパラメータ数100Mモデル群に、JParaCrawlを10等分割して割り当てて学習させたものでした。小規模モデル群の最終的な出力は、いくつかの方法で選定も試されました。

最終的な精度から見ると、10個(サイズ1/3のモデルにデータの1/10) > 1個(サイズ1/1のモデルにデータの1/1)で、性能の最大差異は(COMET評価)1~2%程度。しかもBLEU評価の場合むしろ10%ほど負けています。

しかも、単純計算ですが (10個 * 1/3サイズ * 1/10データ) + 群の出力の選定に必要な処理 + 他のオーバーヘッド = 1/3 + α で、要するに大規模モデルにかかる計算コストの1/3+ちょっとで、まったく悪くない精度が得られることが示されました。

さらに、凄いのは小規模モデル群の各メンバーはデータ全体の一部しか見ていません。加えて、各種メンバーモデルの設計を統一する必要は特にありませんし、最終出力の選定方法はアンサンブルでなければ辞書をそろえる必要性もありません。

(以降、自分の意見です。)

上記を踏まえて、複数の「エキスパート組織」による「集合体的なAI」がうまくいきそうと思えます。クロスドメイン性による多義性もありますし、矛盾も入ってるデータを1つのモデルで学習させれば「幻覚」が発生するのは当然です。ドメインに特化した複数の組織が、ドメイン知識を活かせばデータの正当性はより保証しやすくなりますし、担当ドメインにおける関係ない semantic overload (例:一般用語に見えるが全然違う意味の専門用語)の問題も対処できます。その界隈に何かの展開があった場合のモデル更新も楽になるでしょう。

D2-1 JCommonsenseMorality: 常識道徳の理解度評価用日本語データセット

竹下昌志, ジェプカラファウ, 荒木健治 (北大) ※データセットのリンク: https://github.com/Language-Media-Lab/commonsense-moral-ja

AI界隈の人であれば、AI自体の倫理が以前より問われてきていることを感じているはずです。性別バイアスはもちろん、人種的差別やその他の有害な生成は多く指摘されています。英語圏ではすでにいくつかの倫理系や「常識」系データセットはできていますが、日本語の常識道徳データセットはありませんでした。それに対処するべく、研究者たちが10,000ペア(20,000文)分のあるデータセットを作成し、公開しています。日本語BERTやRoBERTaでの実験も行って、0.8前後のF1スコアが得られました。*道徳的に間違っている文にでも「善」の用語が割と頻繁に使われているという洞察などもありますが、詳しくは論文をご参照ください。

(以降、自分の意見です。)

20万文+3人のアノテーションはデータセットとして割と小さいと感じますが、スタートとして全然悪くはないと思います。今後の拡張を期待しています。

C10-1 思考連鎖指示における大規模言語モデルの否定表現理解

葉夢宇 (東北大), 栗林樹生 (東北大/Langsmith), 舟山弘晃, 鈴木潤 (東北大/理研)

LLMがちゃんと理論を踏んで問題を解けるのかは、あまり証明できていません。よって、この論文の著者たちは思考連鎖指示で、LLMが否定表現を理解できているのかを知るための実験を行いました。

思考連鎖指示(Chain-of-Thought prompting)は、LLMへの入力の仕方です。一つ簡単な例を挙げると:

CoT Prompt: "Q: A is B. B is C. Is C equal to A? A: C is equal to B, and B is equal to A. So the answer is yes. Q: B is equal to C. C is 12. What is B?"

LLM Output: "A: B is equal to C, so whatever C is, B is also. C is 12, and so is B. The answer is 12."

通常のQ&Aプロンプトと違って、インプット自体に回答に必要な思考のステップが明示されているので、「思考ステップ」を書き出してから回答を示す「形式」で回答してください、という指示になります。

しかし、場合によってはカンニングの疑惑もあります。例えば、質問に有名な野球選手S.O.の名前を入れて「『S.O.はホームランを打った』という文章はあり得るか」と質問するとします。「はい、あり得る」という回答が返ってたとしても、それは「ホームランは野球の用語で、S.O.は野球選手だから、ありえる」の思考ステップが踏まれたとは限りません。もしかすると、S.O.がホームランを打ったことが記載された記事がデータセットにあっただけで、「S.O.」と「ホームラン」の関係性(お互い近くにある可能性)が高かっただけでそう予測されたかもしれません。

ですので、著者たちは、架空のスポーツとスポーツ選手と用語を使って、思考連鎖指示をやってみました。ただそれでも浅い推論は可能なので、一捻りして否定表現も入れてみました。「Only」の挿入か問題の逆転(正解が「Yes」から「No」になる)で、YesとNoの正解が五分五分のテストデータで検証してみました。

その結果、実験に使ったGPT-3(175B)とOPT-66B両方とも著しくNO回答の割合が多くなりました。否定表現があるとNO回答が生成される傾向があるという洞察に至りました。

(以降、自分の意見です。)

実験の詳細をここに全部書くのはなんだか気が引けますので、気になった方は是非論文をお読みください。

ただ言いたいのは、実在単語の交互出現率を除外するために、架空の単語を使う手法は、「よく考えたな!」と感動しました。専門外なので、このような手法は理論系の実験においてよくあるかどうかは知りませんが、すごくピンポイントで有効そうな手法ですね。今後の自分の実験にもその発想が使えないか、考えたくなりました。

H11-4 広告文生成タスクの規定とベンチマーク構築

三田雅人, 村上聡一朗, 張培楠 (サイバーエージェント) データセットのリンク: https://github.com/CyberAgentAILab/camera

広告文の生成は各広告プラットフォームや代理店で行われていますが、機密情報や著作権などの問題を起こさないように、自分が持っているデータを公開することはほとんどありません。ですので、「広告文」としての評価に使えるデータはどうしても広告文っぽくない一般的な文章で構成されているデータセットとしか比較できませんでした。

それで、論文の著者たちは広告文生成を応用横断的なタスクとして捉えて、マルチモーダルかつ業界別に「広告文らしさ」の評価に使えるデータセットを用意し、数種類の生成器で試してみてベースラインを設けました。

そのデータセットには、LP (landing page、広告リンクの遷移先である商品やサービスを訴求するウェブページのこと)のテキストに加え、検索キーワード、メタ情報、LPに載っていた画像やその画像等のOCRまで入っています。画像自体が必要がない場合、画像なしのバージョンもダウンロードできます。ライセンスはCreative Commons Attribution-NonCommercial-ShareAlike 4.0 International です。

(以降、自分の意見です。)

良い意味で、「思い切ったな!」と思いました(笑)。私も広告代理店にてエンジニアをやっていますので、このようなオープンデータセット化へのハードルはよく理解しているつもりです。ライセンスにはNonCommercial条件があるので、使い道の幅は狭まりますが、かなりレアなデータセットなので、同じ業界の研究者として凄くありがたいです。

一言コメントコーナー

全部をちゃんとライトアップする時間がなかったので、気になった論文を集めてひとコメントずつ述べさせていただきます。けして尺稼ぎではありません(笑)!

B1-3 ExDistilBERT:辞書拡張できるモデル蒸留によるドメインに特化した言語モデル 高鵬挙, 山崎智弘, 伊藤雅弘 (東芝) - 専門用語は特定のアイディアを簡潔に表す言葉ですが、専門家じゃないと理解できないことが多いでしょう。しかも一般用語と一字一句同じなのに意味が異なる場合(semantic overload)、なお専門性が必要です。ドメインに特化したモデルを蒸留すれば、用途に対してより精度が高くなるし、モデルの軽量化もできます。

D1-4 汎用言語モデルは日本語の数量表現を理解しているか 小谷野華那 (お茶大), 谷中瞳 (東大), 峯島宏次 (慶應大), 戸次大介 (お茶大) - 助数辞(n「匹」とかn「箱」とか、数を表す時に使う単語)は正しく予測できるかどうかに着目した論文です。東北大BERTと早大RoBERTaで実験した結果、8割以上はできましたが場合によって変なものが予測されたりします。『赤信号で1「ヶ月」またされた』などは、人間の尺度が考慮されていませんね……

P1-6 Character-level Data Augmentation on Code Mixed Sentences for Low-Resource Settings Niraj Pahari, Kazutaka Shimada (九工大) - 私は割と頻繁に日本語の文章に英単語を使ったりしますが、複数の言語が混ざっているテキストがどう処理されているのかは気になっていました。よりglobalizedな将来には複数の言語が入ったテキストはどんどん増えていくのは当然なので、こういう多言語系研究も発展していくでしょう。

P2-2 画像キャプション生成におけるJPEG圧縮への頑健性の改善 遠藤洸亮, Zhishen Yang, 岡崎直観 (東工大) - コンピュータービジョンノットイコール人間の視覚のすごくいい例に着目したな、と思いました。人間の(脳での処理を含めた)視覚はある程度の視覚的ノイズは気にしませんが、CVはそれでつまづきそうですね。

H4-2 入力文章の内容に沿った新たな歌詞を生成する作詞支援システムと剽窃リスクを下げる歌詞生成手法 渡邉研斗, 後藤真孝 (産総研) - 入力した文章がそのまま生成に含まれてしまう問題はあります。生成器に情報を渡す際、入力の文字面を保持しないなにかの「中間表現」が必要です。それでなんと、入力文字 -> Anything v3 でアニメ風画像を生成 -> Vision Transformer -> Transformer decoder の流れにしたそうです。文字からアニメ画像から歌詞という、いかにもマルチモーダルなワークフローです。

H4-3 学習データの珍しさを考慮した多様な広告文生成 黒木開, 石塚湖太, 川上孝介 (negocia) - Perplexityは普段テキストの流暢性を計測するためのメトリクスですが、それをここでは頻度の表れ(≒表現の珍しさ)と捉えて学習で重みづけをしたそうです。結果、追加学習用のアノテーション付きデータセットを用意せずに、生成の多様性を上げることができました。こういう逆転の発想は個人的に好きです。

D4-1 日本語有害表現スキーマの提案と評価 小林滉河, 山崎天, 吉川克正, 牧田光晴, 中町礼文 (LINE), 佐藤京也 (LINE/都立大), 浅原正幸 (国語研), 佐藤敏紀 (LINE) ※データセットのリンク: https://github.com/inspection-ai/japanese-toxic-dataset - 今後のAIのためだけではなく、将来の学術のためにも、こういう試みは必要です。ただし、このデータセットの欠点は、「有害」のデータが全体の3割も満たさないことです。逆に、「Hard to Say」(有害かどうかわからない。有害かどうかを決めるためには前後の文脈が必要。)の例はそれなりに入っています。実際のところ、「有害」のラインはひとの「感度」に依存するところはありますし、比喩表現とかもあるし、前述の通り会話の流れによって有害なのかただの冗談なのか決められないケースはあります。とはいって、これは悪くないベースであり、今後の拡張と改善を期待しています。

D3-3 対話型擬人化エージェントの言語的配慮に対する受容性の6か国異文化比較に関する研究 -クラウドソーシングによる大規模印象調査3- 松尾篤 (工芸大), 宮本友樹 (電通大), 片上大輔 (工芸大) - やはりこういうのは国間の違いが出ますね。対話型擬人化エージェントを全世界共通にしたくても、各国に導入する際に攻略法を考えないといけないかもしれません。わかりやすい例として、各国の政治的な環境や宗教的な制約がありますが、それに加えて擬人化エージェントに対する不安感と受容性も考慮しないとダメそうです。

D6-3 A Statistical Analysis of English in Contemporary J-pop: Time Series of Lyrics and Identity, 2012-2021 David Calica (フリー), Mariko Takahashi (摂南大) - ちょっと前の会話で、「歌詞に英単語があると古いと思われる」と言われて、「そうなの?」と疑問をもちました。この論文によると、多くのJ-pop曲には英単語が入っているが、全体の量(トークン数)の15%程度だそうです。感覚だけど、サビまたは挿入されるラップには英単語が割と頻繁に出てくる気がします。しかも、最近出てきたアイドルグループは国際的なリーチを狙っているのか、昔のグループよりも英単語をつかってるイメージがあります。じゃ、「英単語がある曲は古い印象がある」って、いつまでの話だったんでしょうか?

H6-1 観測した周囲の状況を曖昧な発話に統合した対話ロボットによる気の利いた行動選択 田中翔平, 山﨑康之介 (NAIST/理研), 湯口彰重 (理研/NAIST), 河野誠也 (理研), 中村哲 (NAIST), 吉野幸一郎 (理研/NAIST) - 実際の人間の間の会話では、発話した「一行」で切り取られるとは限らないのです。例えば、「あれとって」とお願いしたら、人間の相手は何を指しているのかは割と簡単に察することはできるが(例:テーブルの上にあるコップ)、ロボットなどはできないケースは多いです。できるだけ曖昧性のない、名刺も動詞も全部明確かつ的確に発生・入力することで、ロボットは対応できるが、流石にそれは面倒くさいですね。本格的にロボットヘルパーなどを開発したければ欠かせない研究です。

P7-13 「エモい」という感情に関する考察 青山凌大, 西口純代 (小樽商大) - 『「エモい」はいくつもの感情が重なった「何とも言えない気持ち」』って、エモくないですか?冗談抜きで、複雑な感情(複数の感情が重ねあったもの)を説明するのは難しいし、面倒くさいうえに必ず共感してもらえるとは限らないので、「エモい」で片付けるのは楽ですね。

終わりに

ChatGPTの登場によって、旬ではなくなった手法の研究が色あせたと感じることはあると思うし、最新の手法で「やってみたい」気が分かりますが、界隈としていつも新しい技術(しかも大抵の研究者には再現できないスケールのもの)に囚われてはいけないと強く感じます。もちろん、大規模の自然言語生成器のメカニズムを理解するのは大事ですが、もう世界をひっくり返せるレベルの精度になりかけている今こそ、LLMやAIの人間社会における弱点を探して改善に繋げる研究が必要でしょう。LLMやAIのバイアス、不適切な表現、(社会のコンテキストで説明できる)理論性、あらゆる隙を突くような研究はどんどん出てほしいです。でないと世間は、LLMかのように、今まであったものと起こったことを全部そのまま「ただしい」と受け止めるようになってしまいそうです。

革命の暁が近いからこそ、過去の悲劇を繰り返さないように将来の方向性をしっかり考えて導いていくのが、研究者のあるべき姿だと信じています。私も自分なりに、あるべき将来の実現に貢献することを心掛けていきます。

今年の大会は激しく変動しているご時世も含めて、アイディアと感情が飛び交う、ワクワクと心配が葛藤していた大会でした。マジでエモかったです。


Opt Technologiesに興味のある方は、こちらから「カジュアル面談希望」と添えてご応募ください!