Opt Technologies Magazine

オプトテクノロジーズ 公式Webマガジン

NLP2021参加レポート

alt

2021年3月15~19日に行われた言語処理学会第27回年次大会(NLP2021)の参加レポートです。

あいさつ

こんにちは。AIソリューション開発部のnatsuumeです。ここ最近は広告テキストの生成に取り組んでいます。3月15日~3月19日の期間で行われた言語処理学会年次大会を今年も聴講したので、いくつか気になったものを紹介したいと思います。

また、弊社ではゴールドスポンサーとして協賛させていただいたほか、スポンサー展示にて直近の弊社における機械学習や自然言語処理に関する取り組みを紹介しました。
※社内規定により、当日の資料から一部詳細な数値等は削除しています。

なお、今年も昨年に引き続き新型コロナウィルスの影響で全日程オンラインでの開催となりました。

聴講内容

B3-3: 企業情報を考慮したキャッチコピーの自動生成

昇夏海, 平岡達也, 丹羽彩奈 (東工大), 西口佳佑 (サイバーエージェント), 岡崎直観 (東工大)

既存広告に含まれる企業関連語(特定の企業を想起させる特徴的な単語)に対し異なる企業の企業関連語への置き換えを行うことで、既存広告を指定した企業の広告に転移させることを試みた研究です。この研究ではBERTの企業関連語の予測制御にPlug and Play Language Model(PPLM)の枠組みを応用しています。

広告文の生成において既存の文をベースとした生成は一定の質を担保しやすい代わりに、いかに既存の広告と異なる文を生成するか、という点が常に課題です。弊社では過去にテンプレートベースでのテキストの簡易生成ツールを制作したこともありましたが、テキストの類似性という点から実用化には至りませんでした。

そういった経緯もあり、今回のような企業関連語の変換は短いテキストでユーザの目を引くことが要求されるディスプレイ広告やバナー広告中のテキストを対象にした自動生成において、非常に有用に感じました。

P4-12: Tokenizerの違いによる日本語BERTモデルの性能評価

築地俊平, 新納浩幸 (茨大)

事前学習済みの日本語BERTについて、Tokenizerを変更した際の性能に与える影響を分析した研究です。BERTのモデルには乾研究室が公開しているモデルを使用しており、比較対象としたTokenizerは下記の通りでした。

  • MeCab+IPAdic, MeCab+IPAdic+NEologd
  • Juman++
  • Sudachi
  • nagisa
  • SentencePiece

今回の実験では、文書分類タスクにおける精度の比較でしたが、SentencePieceを除いて大きな変化は無いようでした。個人的にはTokenizerを変えれば当然精度はある程度悪化すると思っていたので興味深い結果でした。弊社ではBERTを用いた広告テキストの生成に取り組んでいるので、文書分類以外のタスクへの影響でも同様の結果になるのかなど気になるところです。

B6-4: 指定語句を確実に含む見出し生成

山田康輔 (名大/朝日新聞社), 人見雄太, 田森秀明 (朝日新聞社), 岡崎直観 (東工大), 乾健太郎 (東北大/理研)

この研究ではTransformerを改良し、指定語句を基準に双方向に生成を行っていくことで指定語句を確実に含む文を生成する手法を提案しています。

広告テキストにおいては社名や商品名などテキスト中に含めることが推奨される単語が存在します。そのため広告テキストの生成ではいかにユーザが含めたい情報を含めつつそれ以外の部分を生成するか、という点が重要です。そういった点について、指定語句から双方向に生成することで解決するというこの研究のアプローチは大変参考になる内容でした。

また本発表はスポンサー賞でサイバーエージェント賞を受賞しています。おめでとうございます。

おわりに

言語処理学会のオンライン開催は去年に引き続き2回目ですが、今年は去年からポスターセッションの時間が各発表セッションとパラレルに取られるなど何点かの変更がありました。興味のあるセッションとポスターセッションが被ってちょっと悩む場面もありましたが、その分去年より休憩時間が余裕を持って取られているなどメリットもありました。

また、懇親会ではGather.townを利用し、zoom等では中々難しい自由な交流を楽しむことができました。

加えて今年は最終日の19日(金)にはワークショップも開催されました。私はワークショップ3とワークショップ4を午前・午後で分けて視聴していましたが、どちらも非常に盛り上がっていたように思います。

このように昨年に引き続きオンライン開催となった言語処理学会が何事もなく盛況に終わったのは運営の方々のご尽力の賜物です。感謝申し上げます。

さて、NLP2021のクロージングでは来年のNLP2022の開催地が発表されました。
来年は私の恩師である狩野芳伸先生が実行委員長をつとめ、開催地は母校である静岡大学浜松キャンパスのある浜松市での開催が予定されています。

個人的に縁のある場所での開催ということもあり、来年こそは新型コロナウィルスが収束して無事に現地で開催できるようになっていることを祈るばかりです。