JSAI2021イベントレポート - Opt Technologies Magazine

alt

JSAI2021のイベントレポートです。

あいさつ
- データセットおよび学習済み統計モデルの利用についての法的検討
- テキスト分類学習における文節入れ替えによるデータ水増し手法
まとめ

あいさつ

こんにちは。AIソリューション開発部のnatsuumeです。去年に引き続き、今年も人工知能学会全国大会（JSAI2021）を聴講したので、いくつか個人的に気になった発表を紹介したいと思います。

データセットおよび学習済み統計モデルの利用についての法的検討

著者：熊谷雄介(株式会社博報堂), 板倉陽一郎(ひかり総合法律事務所), 見並良治(株式会社博報堂), 猪谷誠一(株式会社博報堂), 道本龍(株式会社博報堂)
予稿：https://www.jstage.jst.go.jp/article/pjsai/JSAI2021/0/JSAI2021_2D3OS7a01/_article/-char/ja

データセットのライセンスは企業に所属する人は特に気を使う部分かと思います。その一方で有名なデータセットであってもどこまで可能なのかライセンスが曖昧なものは少なくありません。この発表では、データセットとモデル、ライセンスの関係について、どのようなライセンスの場合にどこまで利用できるのか、それらのデータセットを学習させたモデルはどのような制約を受けるのかについて検討しています。

テキスト分類学習における文節入れ替えによるデータ水増し手法

著者：有田朗人(大阪工業大学), 駒井雅之(株式会社NTTデータ), 佐藤大輔(株式会社NTTデータ), 丸古凌介(株式会社NTTデータ), 大木環美(株式会社NTTデータ), 野村雄司(株式会社NTTデータ), 平博順(大阪工業大学)
予稿：https://www.jstage.jst.go.jp/article/pjsai/JSAI2021/0/JSAI2021_3J1GS6a04/_article/-char/ja

日本語テキストを対象としたData Augmentationに関する研究です。KNPの解析結果から係り受け関係の木構造を利用し、1つの文節ノードに対して複数の子ノードが存在する場合にそれらを入れ替えることで、比較的日本語として破綻しない文章を増やすことができるというものです。

実験では2クラス分類タスクと多クラス分類タスクの2種類のタスクについて、TIS社が作成しているchABSAデータセットを用いて提案手法によるData Augmentationが精度に与える影響を調べています。

結果として、2クラス分類においては提案手法の効果が確認できなかったものの、多クラス分類においては提案手法を用いることで精度が向上しています。この点について筆者は、各タスクにおけるアテンション重みの違いから少数の単語で結果が容易に決定されるような分類タスクでは効果が薄く、多くの単語を考慮する必要がある分類タスクにおいて高い効果が得られる事を考察しています。

弊社でも広告テキストのバリエーション生成という観点で同じようにKNPの木構造を利用した入れ替えについて検討したこともありましたが、その際は広告テキストというドメインの特殊性もあり、あまり良い結果が得られませんでした。しかし、本発表のタスクでは非文が生成されることは少ないとのことでした。ドメインによっては係り受け関係を利用した入れ替え手法も十分活用できるということが本発表から分かり、非常に興味深かったです。

まとめ

今年のJSAIでは各セッションの録画を6/30まで視聴することができるなど、オンラインならではの利点が強く感じられました。これまでは聴講したいセッションが同じ時間になってしまうことも度々あり片方しか聴講できない事もありましたが、今回は録画が公開されていたため、より時間に縛られずに発表を聴くことができました。開催にあたりご尽力いただいた皆様に心より感謝申し上げます。

来年のJSAI2022は京都府での開催が予定されています。

Opt Technologies に興味のある方は、こちらから「カジュアル面談希望」と添えてご応募ください！