アルゴリズムのバイアス:合成データを用いたAIトレーニングは要注意

人工知能(AI)の訓練(トレーニング)に利用するデータが枯渇しつつあるために、トレーニング・データをAIが自ら生成する事例について最近読んだ。例えば、フィナンシャルタイムズの記事によると、いくつかのトップ企業では、Chat GPTに代表される大規模言語モデル(LLM)のようなAIシステムが、データを自ら生成し、それを活用してトレーニングを行なっているそうだ。別の記事でも、他のAIシステムが生成したデータを用いてトレーニングされるAIシステムについて論じている。

始めに言っておかなければならないのは、実世界から得られたデータより優れた合成データは存在しないということだ。例えば、がん細胞と正常な細胞を見分けることのできるAIシステムを作りたいと思った場合、合成による細胞ではなく、実際のがん細胞と正常な細胞の画像をAIシステムに与えることが最善の方法である。

それ以外のいかなるデータ、例えばがん細胞と健康な細胞の合成データは、AIによる検出システムの信頼性を低下させる。こうした事情があるにもかかわらず、研究者たちは合成データを生成しているのだ。

AIは、データの合成やその利用など、私たちの生活に関する多くのものを変えてきた。そして最も画期的なAIの使用方法の1つが、存在しないデータを生成することだ。合成データは実際の出来事からではなく、コンピューター内で生成される。こうした意味合いから、合成データは本物ではなくフェイクなのである。

AIシステムのトレーニング時は、合成データの利用は最終手段であるべきで、最初の選択肢にするべきではない。

そして、こうしたフェイクデータは問題のあるAIシステムを生む。したがって、AIシステムのトレーニング時は、合成データの利用は最終手段であるべきで、最初の選択肢にするべきではない。AIシステムのトレーニングのために合成データを利用する場合には、より慎重な使用が必要となる。

合成データは人工的に生成された情報であり、本質的な特徴と統計的特性は実際のデータに類似しているが、実際の出来事には裏付けられていない。合成データは、実際のデータ数が限られていたり、データの扱いが難しい場合や収集にコストがかかったりする場合にしばしば利用される。実際のデータが入手不可能または利用不可能である場合、モデルのトレーニング、テスト、検証などに合成データが活用できる。

合成データを生成する上で、AI、特に機械学習が極めて重要である。

敵対的生成ネットワークのような生成モデルが、しばしば合成データの生成に用いられる。AIはまた、既存のデータに変更を加えて新たなデータを生成するデータ拡張技法を利用して合成データを生成することもできる。

だが、利用する既存データは、代表的な内容でなければならない。代表的でないデータを用いて、代表的でないデータを、代表的なものに変えるというジレンマには問題がある。画像データの場合、考えられる技法には回転、拡大縮小、反転、トリミングなどがあるが、ここでも代表性のジレンマがつきまとう。

アルゴリズム・バイアスの難点

一部の研究では、AIのトレーニング・データのうち、合成データの割合は2024年には60%にまで達すると予測している。アルゴリズムのバイアス問題に対処することが、合成データを利用する理由として挙げられることがある。

例えば、アフリカの人口はヨーロッパの人口を上回っているが、アフリカよりもヨーロッパでより多くのデータが収集されている。その結果、例えばこうしたデータでトレーニングされた顔認証システムのアルゴリズムは、アフリカ人の顔よりヨーロッパ人の顔をよりうまく認識する。

AIのアルゴリズムがアフリカ人の顔をヨーロッパ人の顔と同程度に認識できるよう、アフリカ人のデータセットを合成データによって補強するという技術的解決策があるが、これには多くの困難が伴う。ここにも、代表性のジレンマが現れる。

不十分な数のアフリカ人のデータセットを使用してアフリカ人の合成データを生成し、その不十分な数のアフリカ人のデータセットの代表性を高めることは容易ではない。

しかし現実には、AIモデルのトレーニングに使用されるデータセットの多くが不均衡で、一部の部類が過剰に多くなっていたり(例:顔認識におけるヨーロッパ人の顔)、他の部類が過剰に少なくなっていたりする(例:アフリカ人の顔)。

この方法が唯一上手くいくのは、数は限られていたとしても、元々のアフリカ人のデータベースが、アフリカの人口のすべての部類の人々を網羅できているケースだが、このようなケースは多くはない。

したがって、あらゆる部類が代表されることがこのジレンマを解決するカギである。トレーニング・データで全部類が代表されていれば、AIシステムの公正性と包摂性が担保される。ここでの部類の代表性とは、AIのトレーニング・データに多様なカテゴリーあるいは部類を配分させることを指す。

例えば、二項分類問題での2つの部類は「プラス」と「マイナス」かもしれない。AIモデルがすべての部類を正確に予測できるようにするには、理想的にはトレーニング・データですべての部類が均等に代表される、あるいは少なくとも十分な代表性が確保されるべきだ。

しかし現実には、AIモデルのトレーニングに使用されるデータセットの多くが不均衡で、一部の部類が過剰に多くなっていたり(例:顔認識におけるヨーロッパ人の顔)、他の部類が過剰に少なくなっていたりする(例:アフリカ人の顔)。このような不均衡は、データの多い部類(ヨーロッパ人の顔)については良い成績を上げるが、データの少ない部類(アフリカ人の顔)については好ましくない結果を残すなど、偏ったAIモデルを生み出す可能性がある。

部類の代表性が不均衡であることは、AIシステムの公平性に直接的な影響を及ぼす。

2019年に行われた研究では、代表性に偏りのあるトレーニング・データは差別的なAIシステムを生み出す可能性があることが示された。例として、主に片方のジェンダーのデータに基づいてトレーニングされた医療用AIシステムは、もう一方のジェンダーについて同程度のパフォーマンスが出来ない可能性がある。このようなAIシステムにおける不平等は、排除や差別といったさらに深刻な事態を招きかねない。

ブオラムウィニとゲブルによる研究では、商業用ジェンダー分類システムは、肌の色が濃い人々と女性のグループのトレーニング・データ不足が原因で、これらの人々に対するシステムエラー率が高くなることが分かった。こうした排除は、すでに存在する社会格差を悪化させ、デジタル・ディバイド(デジタル上の分断)を生み出しかねない。

データの貧困によって合成データの生成が必要となっている。このデータの貧困を、特に開発途上国において最小限に抑えるために、こうした問題を解決することが重要だ。

もう1つの戦略は、公正さと包摂性を確保するために部類の不均衡による負の影響を減らすことである。さらに、トレーニング・データの特性とさまざまな部類におけるシステムのパフォーマンス結果を開示することで、AIシステムの透明性を高めることができる。

トレーニング・データにおいて多様で均整のとれた部類の代表性を確保することが、包摂的なAIシステムの開発に不可欠である。

さらに、先端技術と創造力、ソーシャルメディアにおいて世界で中心的な位置を占めるシリコンバレーは、より包摂的にならなければならない。シリコンバレーと他の同様の中心地は、多様なバックグラウンドを持つ人々を受け入れる必要がある。シリコンバレーで働く人の大半は男性で、そのほとんどが白人またはアジア人である。したがってより多くの女性、黒人、ラテン系の人々、先住民を受け入れる必要がある。

このような多様性の欠如が、AIの設計と利用の方法に影響を与え、偏りのあるアルゴリズム(アルゴリズム・バイアス)をもたらすのだ。そのため採用プログラムでは、アンコンシャス・バイアス(無意識の偏見)に対処するために多様性に関する研修や、社会的に十分に代表されていないグループのメンターシップに重点を置くべきである。

また、他の地域を差し置いて一部の地域に過剰な資源の集中をもたらしている経済の諸問題に、私たちは取り組まなければならない。アフリカ大陸はテクノロジーのバリューチェーンに深く関わっている。例えば、テクノロジー分野で利用される原材料の多くはアフリカ産である。

したがって、デジタル技術において公正な世界を創るためには、世界の金融体系の改革が不可欠である。データの貧困によって合成データの生成が必要となっている。このデータの貧困を、特に開発途上国において最小限に抑えるために、こうした問題を解決することが重要だ。

・・・

この記事は最初にDaily Maverickに掲載されたものです。Daily Maverickウェブサイトに掲載された記事はこちらからご覧ください。

著者

チリツィ・マルワラ教授は国連大学の第7代学長であり、国連事務次長を務めている。人工知能(AI)の専門家であり、前職はヨハネスブルグ大学(南ア)の副学長である。マルワラ教授はケンブリッジ大学(英国)で博士号を、プレトリア大学(南アフリカ)で機械工学の修士号を、ケース・ウェスタン・リザーブ大学(米国)で機械工学の理学士号(優等位)を取得。