アルゴリズムバイアスの二面性:不可避な差別と回避可能な差別

私たちは、アルゴリズムに投入するデータを可能な限り多様化することで、人間の最良の資質を反映するアルゴリズムの潜在力を活用することできる。


人工知能(AI)の進歩に伴い、アルゴリズムが私たちの日常生活を織りなす見えない糸となって、日常的なものから非日常的なものまで、意思決定に影響を及ぼしている。

しかし、AIが普及するにつれて、バイアスや差別など、その欠陥に関する認識も高まっている。制御可能なものも一見制御不可能なものもあるこれらのバイアスは、アルゴリズムによる選択の整合性を危うくし、より重大な社会的亀裂を表している。

私たちは、アルゴリズム・バイアスを取り巻く複雑な環境を探り、デジタル的に表現された社会的、政治的、経済的、技術的欠点についての詳細な理解と、その解決に向けた積極的なアプローチを取るよう訴える必要がある。

避けられるアルゴリズム・バイアスは過失や怠慢の結果である。アルゴリズムに投入するデータが代表的でなかったり、こうしたシステムの開発者が無意識のバイアスを意図せずにコードに組み込んだりした場合に生じる。

その結果どうなるのか。ステレオタイプが固定化され、社会的不公正が強化される。

主にディープラーニングによって複雑なアルゴリズムの説明が付かなくなることが事態を一層困難にしている。ディープラーニングは一種のニューラルネットワーク、つまり入力変数(例:ある人の肺のX線像)と出力(例:その人が肺がんかどうか)の関係を、多層構造を通じて表現するように訓練したAIの一分野である。こうしたディープラーニング・システムの「ブラックボックス」的な性質がバイアスの特定を難しくし、これらのツールを用いながら公正さを追求することを達成困難なものにする。

回避可能なバイアスに対処することは可能ではあるが、勤勉さと多様性や透明性に向けた献身を必要とする。これはアルゴリズムに投入するデータを可能な限り多様化し、代表的なものにすることから始まる。また、こうしたアルゴリズムを開発するチームに多様性を持たせ、多様な視点が考慮されたり、内在的なバイアスが特定されるようにしたりすることも含まれる。

しかし、これらの解決策は不完全であり、残存するバイアスや差別は残る。したがって、アルゴリズム・バイアスに対処する際の現実的な目標は、それを最小限に抑えることである。

バイアスに立ち向かう

低資源言語のための言語認識技術について考えよう。ここではジュホアンシ・サン語を例にとる。アフリカ南部に暮らす人口5万~7万5千人の先住民族グループのジュホアンシ・サン族に対するアルゴリズム・バイアスの可能性は、AIシステムによるマイノリティ集団に対する差別はどの程度回避不可能なのかという、より重大な問題を例証している。

人口規模が小さいため、ジュホアンシ・サン族の特徴的な言語はデジタルアーカイブでの代表性が本質的に低くなりがちである。その結果、ジュホアンシ・サン語を認識する能力が不十分なAI言語システムができあがり、彼らの吸着音言語のニュアンスを誤って解釈してしまう。

これを軽減するため、イシコサ語など、関連しているがより広く用いられている言語からの転移学習を行うことが、大量データセットの入手性に限界はあるにしても、より包摂的なAIシステムの開発に役立つ可能性がある。

AI訓練のためのデータの代表性をめぐる政治経済は、権力のダイナミクス、経済的利益、そして社会構造と交錯する複雑なテーマである。

悲しいことに、この戦略はアルゴリズムによる差別を低減するものの、解消することはできない。したがって、この問題の核心はデータの代表性にある。

データの代表性は政治経済に依存している。AI訓練のためのデータの代表性をめぐる政治経済は、権力のダイナミクス、経済的利益、そして社会構造と交錯する複雑なテーマである。そのため、AIシステムが消費するデータは単なる中立的なビットやバイトの集合体に留まらず、その発生源の社会学的、政治的、経済的状況を反映している。

こうした社会学的、政治的、経済的状況の修正は、特に短期的には難しく、アルゴリズム開発のライフサイクル中には一層困難である。したがって、私たちはこの不完全な条件下でアルゴリズムの開発を続けることになる。

より多くの資源と影響力を持つ主体は、大量のデータセットを頻繁に入手したり、操作やキュレーションができたりするため、こうしたデータで訓練したAIモデルは彼らの意見や利害を反映するように形成される。このダイナミクスは代表性の格差につながり、AIの訓練用データセットにおいて、疎外されたコミュニティーの代表性が低くなったり、代表性に誤りが生まれたりするおそれがある。

その結果、新たなAIシステムが既存の偏見を強化し、構造的な不平等を悪化させ、国際社会のさまざまな要求に応えられなくなるおそれがある。

多様なデータセット

この格差に対処するには、データ収集とキュレーションを民主化する協調的な取り組みにより、AIシステムが大規模なだけでなく、多様かつ人間の経験の複雑なタペストリーを代表するデータセットで訓練するようにする必要がある。

こうした取り組みは技術的、政治的、経済的問題であり、政策立案者、技術者、そしてコミュニティーが協力して、より公平かつ包摂的なAI体系を設計する協調的な戦略を必要とする。

この格差に対処することが、真にグローバルで包摂的なAIシステムの開発に不可欠である。コミュニティーの参画を含む、データ収集とキュレーションにおける協調的活動により、データが言語学的に正確で、文化的な代表性を持つようにしなければならない。

さらに、最小限のデータからの学習を最大化するため、転移学習や教師なし学習技法などの新たなAI訓練法を推奨している。この格差を埋めることは、単なる技術問題ではなく言語的多様性と文化的包摂性への献身であり、言語に関係なく誰もがAIの恩恵を受けられるようにすることである。

ある種の公平性に最適化することは、別の種の公平性に対するバイアスに意図せずつながる可能性があり、私たちが平等を追求することの逆説的な性質を浮き彫りにしている。

バイアスには回避可能なものもあるが、私たちの文化的・技術的枠組みの構造に根付いた避けられないバイアスもある。こうした避けられないバイアスは、社会現象の複雑さ、正義の多様な性質、そして社会基準の絶えず変化する構造に由来する。

公平性は人類と同程度の歴史を持つ概念であり、根本的に主観的なものである。ある人が公平と考えることが、別の人にとっても公平とは限らない。正義を追求する中で、アルゴリズムが矛盾する定義に直面することは頻繁にある。ある種の公平性に最適化することは、別の種の公平性に対するバイアスに意図せずつながる可能性があり、私たちが平等を追求することの逆説的な性質を浮き彫りにしている。

さらに、社会的規範は常に変化している。社会の態度や理解が変われば、今日の公平性を表すアルゴリズムは明日にはバイアスの遺物になるおそれがある。このダイナミックな情勢が、公平性の追求を目的地としてではなく旅路へと、一度きりの達成から継続的な発展へと変容させる。

社会的・技術的パラダイムシフト

そして最後に、社会的価値観や基準によってアルゴリズムの開発と展開を導くための強固な倫理的枠組みとガバナンスの仕組みを推奨する。これらの枠組みは単なる指針ではない。技術革新の追求が、衡平性や公正さへの献身を上回ることがないようにするためのガードレールとしての役割を担う。

私たちがテクノロジーと社会の交差点に立つ中で、アルゴリズムのバイアスや差別は課題であると同時に機会でもある。それは私たちの技術的成果の整合性にとっての課題であると同時に、反省し、修正し、前進する機会でもある。

避けられる差別に配慮と開放性を通じて対処し、継続的な成長と包摂的な言説を通じて避けられないバイアスの舵取りをすることで、人間の欠陥ではなく、最良の資質を反映するアルゴリズムの潜在力を活用することできる。

道筋は複雑であるが、最終的な成果、すなわちテクノロジーが平等の障壁ではなく、架け橋となる社会に価値があることに疑いの余地はない。

・・・

この記事は最初にDaily Maverickに掲載されたものです。Daily Maverickウェブサイトに掲載された記事はこちらからご覧ください。

著者

チリツィ・マルワラ教授は国連大学の第7代学長であり、国連事務次長を務めている。人工知能(AI)の専門家であり、前職はヨハネスブルグ大学(南ア)の副学長である。マルワラ教授はケンブリッジ大学(英国)で博士号を、プレトリア大学(南アフリカ)で機械工学の修士号を、ケース・ウェスタン・リザーブ大学(米国)で機械工学の理学士号(優等位)を取得。