自閉症判別AIの件について

「顔写真から自閉症を判別してみた #Python - Qiita」という記事(削除済み;Wayback Machine)が炎上しており、個人情報保護やAI規制のエンフォースメントを考える上でよい素材だなと思ったので、書いていきます(リスクそのものを議論することは、本記事の目的ではありません)。

 

何が起きたのか

記事をお読みいただきたいのですが、時間がない人のためにAIで要約させたので、ご利用ください。

この記事は、顔写真から自閉症を判別するWebアプリをPythonで開発するプロジェクトの過程をまとめたものです。開発の動機や目的、データ収集方法、画像の前処理、モデル構築のプロセスが詳細に説明されています。主な目標は、診断時間と費用の削減、誤診リスクの軽減です。初心者としての挑戦や苦労も記述されており、AidemyのAIアプリ開発コースの一環として実行されました。

学習用データにはKaggleで公開されているデータセット (削除済み;Wayback Machine)が使用されたようです。

出来上がった機械学習モデルはWebアプリとして公開されていました(削除済み;Wayback Machine)。Webアプリには、以下の注記がありました。

このアプリには改善の余地があります。現在、自閉症の診断が可能なのは医師のみです。第三者の画像を許可なく使用することや識別結果を診断の根拠とすることがないようお願いいたします。

 

コメント

医師法関係

  • 上記サービスは、医師法17条(非医師による医業の禁止)に違反する可能性がある。例えば医師向けの画像診断支援サービスは、現にサービスとして提供されているが(産総研の解説)、これは、①医師にしか提供されず、かつ、②医師が自らの責任で判断することが、契約、医師の知識と能力、職業倫理によって担保されていることから医行為非該当とされているにすぎず、ディスクレーマーのみによってそうなっているわけではない(AIを用いた診断、治療等の支援を行うプログラムの利用と医師法第17条の規定との関係について)。

 

個人情報保護法関係

あえて3年ごと見直しに引きつけてコメントします。

  • サービス提供それ自体について、以下の2点に留意すべきである。 
    • 第一に、上記のようなサービスが有するリスク(主として誤りと差別であろう)は、まずは処理の必要性(法的根拠)、正確性確保、データの関連性等(なお、個人の尊重は、これらの基礎をなすものである。)によって処理されるべきであり、生体データ処理やプロファイリングの追加的規制はその担保措置にすぎない。
    • 第二に、個情委の識別性解釈(distinguish/single outできるだけでは足りず「誰か分かる」ことが必要)からすると、上記のサービスは、上記のサービスは(サービス提供者が顔から「それが誰か」を検索可能な表を持たない以上)その対象外になってしまうということである。
  • 上記のサービスの提供に関しては、Aidemyのチューターが実質的に関与していたようである。このような場合、EDPBのGuidelines 07/2020Fashion ID事件判決Google Spain判決を考慮すると、個人の権利のより実効的な保護のため、AidemyにJoint Controllerとしての責任を負わせる必要がないかが検討されるべきである。
    • この点については、パブコメ意見の「個人情報取扱事業者、委託」の箇所に書いた。
    • 上記ガイドラインのpara. 14は、以下のように述べている。"As the underlying objective of attributing the role of controller is to ensure accountability and the effective and comprehensive protection of the personal data, the concept of ‘controller’ should be interpreted in a sufficiently broad way, favouring as much as possible effective and complete protection of data subjects so as to ensure full effect of EU data protection law, to avoid lacunae and to prevent possible circumvention of the rules, while at the same time not diminishing the role of the processor."
  • データセットの収集・提供については、識別性を適切に解釈した場合、要配慮個人情報の取得と個人データの第三者提供となると思われる。その場合、上記のAidemyに関する議論と同様の理由で、データセットをアップロードした者だけでなく、KaggleにJoint Controllerとしての責任を負わせる必要がないかが検討されるべきである。

 

AI規則関係

AI規則では禁止されている旨のコメントを見たので書いておきます。

  • AI規則は、(i)prohibited AI practices、(ii)ハイリスクAIシステムの規制、(iii)汎用AIモデルの規制、(iv)特定のAIの透明性義務からなっている。ハイリスクAIシステムの規制については、主としてProvider(開発・提供者)とDeployer(利用者)に、それぞれの地位と能力に応じて異なる義務が課される。
  • (i)prohibited AI practicesは具体的に列挙されているが、上記のサービスがこれに該当するかは疑わしい。
  • 一方、ハイリスクAIシステムの規制との関係では、(a)上記のサービスが医療機器とみなされる場合、Annex I para. 11によりハイリスクAI規制の対象となり(みなされるかどうかは医療機器規則の問題だが、ここでは立ち入らない)、そうでなくとも、(b)Annex III para. 1(c)の"AI systems intended to be used for biometric categorisation, according to sensitive or protected attributes or characteristics based on the inference of those attributes or characteristics"に該当する可能性がある。
  • ハイリスクAI規制が適用される場合、データセットの品質基準が適用される(同規則10条)。特に、同条3項は、"Training, validation and testing data sets shall be relevant, sufficiently representative, and to the best extent possible, free of errors and complete in view of the intended purpose."としている。

 

責任モデルについて

  • 上記のEDPBのガイドラインの引用(を含むガイドラインPart I, 1)からも分かるとおり、責任の割当ては、data subjectの実効的な保護の観点から、機能的になされるべきである。
  • この前提で、以下のことに留意すべきである。すなわち、研究とその成果の公表は基本的には自由であるべきである(したがって、Webアプリの公開が問題なのであり、記事の公開は問題とされるべきではない)。一方、研究成果の利用の結果については、第一次的にはユーザーが責任を負うべきである。ただ、そのユーザーに責任ある行動を期待できない場面では、そのことゆえにdata subjectの保護を諦めるべきではなく、研究成果を実装し、ユーザーにサービスとして提供する者(しばしばユーザーより高い知識と能力を持つ)にも責任を割り当てる必要がある。AI規則が、ハイリスクAIシステムについてdeployerだけでなくproviderにも義務を課しているのも、このような発想によるものである。