LTV予測システムの概要

alt

AIソリューション開発部の開発事例として、LTV予測システムの概要について簡単に紹介します．

はじめに
LTV の広告活用に関して
LTV予測システムの概要
おわりに

はじめに

AIソリューション開発部の高野です．ここでは以前携わった案件で作成したLTV予測システムの一部について簡単に紹介したいと思います．

LTV の広告活用に関して

LTV予測システムの概要の前に、LTVとその広告活用のメリットについて簡単に説明したいと思います．

LTVについてですが、LTV は Life Time Value の略語であり、(顧客)生涯価値のことです．つまり、ある顧客がその生涯でどれくらいの利益を企業にもたらすかの指標になります．この指標を広告に活用することでどのような利点があるのかを、広告効果の指標である CPA との比較を用いて説明していこうと思います．まず CPA は Cost Per Acquisition の略語で1件あたりのコンバージョンにかかるコストを表します．CPA を用いた配信の最適化の場合はコンバージョンの価値を均等に考えた上で、広告にかかるコストを最小化するような最適化が行われます．そのため、企業に利益をもたらす顧客を獲得するのではなく、(コンバージョンの価値に関係なく)コンバージョンしやすい顧客を獲得するように最適化されていきます．一方、LTV を用いた配信の最適化の場合だと、獲得したコンバージョンの価値を LTV で測った上で企業にもたらす利益を最適化するような広告投資が行えるようになります．例えば、CPA は高いが LTV を考慮するとコストに対して利益が上回る広告があるとします．CPA を用いた場合だと、コンバージョンの価値(LTV)は無視するので高コストと判断され配信抑制が行われます．一方、LTV を用いた場合だと、コンバージョンの価値が LTV として測れるのでコストよりも利益が上回っていることがわかり配信強化に繋げられます．このように、LTV を測定することで利益を重視した広告配信が行えたり、利益化されやすい広告にコストアロケーションすることができるようになります．

LTV を用いた広告配信には上記のようなメリットがありますが、LTVは未来の指標なので基本的に予測することでしか知りえません．加えて、LTV はスパンが長く予測が非常に困難であることが多いです．通常、ある特定の期間に区切ってその期間中の LTV を実際の LTV の近似値として用います．上記の理由から、この案件では機械学習を用いて過去データから 1年間の LTV を予測するモデルを構築しました．予測モデルの構築には案件固有の経緯から AutoML Tables を使用しています．加えて、使用しているデータがLTV予測のため機密性の高いデータである関係から、ここでは前処理やモデルの作成方法ではなく定期的に予測モデルを作成するシステムの概要について話したいと思います．

LTV予測システムは、大きくモデル作成処理と再学習処理の2つの部分に分かれます．

モデル作成処理にはモデル作成と学習データを整える前処理の2つのタスクがあります．モデル作成は、上述のように案件固有の経緯から AutoML Tables を使用しています．今回は AutoML Tables を使用していますが、機械学習モデルを作成・デプロイする任意の処理と交換可能です． AutoML Tables は簡単にいうと、構造化データを対象に特徴量エンジニアリングする必要なく自動で機械学習モデルを作成・デプロイしてくれるサービスです．詳細はドキュメントを参照してください．前処理の部分は後述する再学習処理に関しても考えて、Cloud Composer を使用しました．Cloud Composer はワークフローオーケストレーションツールの一つであり、Pythonでワークフローを定義することで、様々な処理を定期的に自動で行うことができるというサービスです．詳細はドキュメントを参照してください．この案件で定義したワークフローに関しては一般的な処理ではなくこの案件のデータに特化した処理になるのでここでは触れませんが、主にテーブルの結合やデータのパーティショニングなどを行っています．

再学習処理では予測モデルを定期的に再学習させます．一般に機械学習モデルには、入力と出力の関係が学習時と予測時で変化しないという暗黙の仮定があります．この仮定は最初の学習の直後はある程度満たされていたとしても、時間経過に伴って生じるデータ・シフトにより簡単に満たされなくなり、予測精度が徐々に低下することがあります．そのようなことが生じるのを防ぐためには再学習する必要があります．今回はシンプルに定期的に再学習することにしました．しかしながら、AutoML Tables にはデータを変えて定期的に学習する機能は存在しないので、新たなモデルを作成する必要があります．Cloud Composer はワークフローを定期実行することが可能なため、本来ならば、上の構成のみで定期的に再学習が行えます．しかしながら、今回ランニングコストはできるだけ抑えたいという話になり、定期的に立ち上げて再学習させて落とすという仕組みを追加実装することになりました．(仕様を固めた上でコストに応じてシステム構成を考えれば、こういうことにはなりません．今回は時間の関係もあって機能追加で対応しました．) この部分の基本的な仕組みはこの記事とほとんど同様になっています．最終的な構成は以下のようになりました．