05/06/2026
「検出器のRecallが0.95です」——この数字を、そのまま信じてよいのでしょうか。本日公開した記事は、私たちが個人情報(PII)・機密情報・要配慮個人情報の検出技術(PII-Fi - https://pii-fi.com)を開発する中で日々向き合っている、「精度の数字を、どうすれば正直に、正しく語れるのか」という問題についての研究部からの整理です。
開発の初期、私たちは社内で用意した合成データで精度を測り、非常に高い数値を得ていました。ほぼ取りこぼしゼロに近い、と。しかし実際の文書で測り直したところ、数値は大きく下回りました。理由はシンプルで、合成データは自分たちが想定したパターンしか含んでおらず、現実の文書が持つ多様さ・崩れ・想定外を反映していなかったからです。あとで振り返ると、その合成データには「同じ正解を少しずつ変えて大量に並べる」ような偏りがあり、見かけ上のスコアだけが高く出ていました。いわば自分で作った問題を自分で解いて満点を取っていたようなものです。ここから得た教訓は明快で、精度の数字は、何で・どう測ったかとセットでなければ意味を持たない、ということです。
個人情報の検出・マスキングでは、見逃し(取りこぼし)が一番こわい誤りです。過検出は可読性や業務上の利用価値を下げますが、見逃しは個人情報や機密情報がそのまま残るため、外部共有や二次利用の場面ではより重大なリスクになりやすい。だからこそ私たちはRecallを最重要指標に置いています。ただし、何でもかんでも隠してしまえばRecallは簡単に上がるため、「取りこぼしを限界まで減らしつつ、過検出も実用範囲に収める」という綱引きの中で評価する必要があります。そして高くすること以上に重視しているのが、「Recallを正しく測り、正しく言える」ことです。
ひとつの数字に必ず信頼区間を添える、というのも私たちが徹底している原則です。「0.95(95%信頼区間 0.88〜0.98)」のように幅で語る。ただし、信頼区間が表すのは「同じ性質の文書からもう一度サンプルを取り直したときの揺れ」だけで、対象とする文書の種類(ドメイン)が変わったときのズレはまったく表しません。同じ池でもう一度釣りをしたときのブレは教えてくれますが、別の池でも釣れるかは教えてくれない、というイメージです。ここを混同すると「うちは0.9出ます」が独り歩きします。
そして個人情報といっても現れ方は文書の種類によって大きく異なります。カード番号やIPアドレスのような形式が明確な情報は横展開しやすい一方、人名・組織名・地名といった固有名詞はドメイン依存が強く、語彙や文脈への依存が大きいため文書の種類が変わると取りこぼし方も変わります。つまりRecallという一語は、実際には情報の種類ごと・ドメインごとに別の数字です。これは製品を売る側にとっては不都合に見えるかもしれません。「どんな文書でも0.9です」と一言で言えたほうが楽だからです。しかし、根拠なくそう言ってしまうことは、最初の「合成データで満点」と同じ過ちにつながります。そこで私たちは、勇気をもって、言えることと言えないことの線をはっきり引くことを選んでいます。
記事では、代表性を主張するためのチェックリスト(母集団の定義、無作為または層化抽出、分布の一致、十分なサンプル数、リーク防止、時間的ホールドアウト、指標と正解の事前固定、正解そのものの信頼性、安定性、別サンプルでの再現)や、「もう十分測れた」を勘ではなく評価曲線で判断する考え方も整理しています。私たちは、点推定が0.9を超えた時点ではなく信頼区間の下限が0.9を超えた時点を、そのドメインで「0.9を達成した」と呼ぶことにしています。保守的な基準ですが、個人情報という領域ではこのくらい慎重でちょうどよいと考えています。
社内で徹底している原則は、突き詰めるとシンプルです。混同行列に立ち返り、何をTP/FP/FNと数えたかを明確にする。測ったドメインだけを名乗る。必ず信頼区間つきで語り、その下限で達成を判断する。一つのドメインの数字を、ほかへ外挿しない。高い数字を一度出すことより、その数字がどこまで信用できるかを正直に示せることのほうが、結局は製品の信頼につながると考えています。
PII検出・マスキング、あるいは機械学習モデルの評価設計に関心のある方の参考になれば幸いです。
https://blog.qualiteg.com/pii-recall-honest-evaluation/
#個人情報保護 #機械学習 #評価設計 #データサイエンス
こんにちは。Qualiteg研究部です。 私たちは、個人情報(PII)や機密情報、要配慮個人情報を含むセンシティブな情報を検出・マスキングする技術(https://pii-fi.com)の開発に取り組んでいます。 その中で日々向き合っているのが...