AI情報の正確性は真実と同等と思ってはならない

人工知能(AI)がイノベーションの礎として歓迎される時代において、しばしば見落とされがちな情報の正確性と真実性の違いをよく吟味する必要がある。AIの予測や分析の正確性は人を惹きつける力があり、多くの人が正確性の高さと真実を混同してしまう。

しかし、こうした混同は誤解を招き、また危険性をはらんでいる。AIシステムは、金融から医療法的判断に至るまで、私たちの生活の重要な側面にますます影響を及ぼすようになってきているからだ。

AIにおける正確性とは、与えられた一連のデータや予想される結果と予測との合致具合のことを指す。これは、定量的かつ具体的な技術的尺度であり、確実性と信頼性の感覚を与えてくれる。

例えば、株式市場の動向を高い精度で予測するAIモデルは、過去のデータパターンとリアルタイムの市場分析に基づいて値動きを正しく予測できるかもしれない。しかし、この正確性は真実性を保証するものではない。

AIモデルの予測は、そのデータの範囲内では完全に正しい可能性がある一方で、思いがけない政治的な出来事や、情報の非対称性に起因する企業内部のスキャンダルなどといった予測も説明もできない外部要因によって、真実とは異なることがある。

正確性と真実の違いは、とりわけ職場のパフォーマンスに関するAI予測の状況で顕著である。従業員の生産性を判断することを任されたAIシステムを考えてみよう。このシステムは、勤務時間、送信した電子メール、完了した業務といった指標を分析して将来のパフォーマンスを正確に予測しようとするかもしれない。

しかし、こうした指標が正確であっても、従業員の能力、モチベーション、潜在的な問題を完全には捉えていない。燃え尽きようとしている従業員の今日の生産性は高いかもしれない。しかし、AIが予測できない可能性のあるメンタルヘルスといった要因が悪化すれば、従業員のパフォーマンスは著しく低下する恐れがある。

 

現実世界への影響

このような相違は単なる理論上の問題にとどまらず、現実世界に影響を及ぼす。AIシステムは、採用決定、業績評価、昇進の場面でますます使用されている。こうしたシステムが、正確ではあっても不完全なデータのみに依存していれば、偏見が強化され、重要な人間的要因が見落とされ、不公平な決定や無効な決定が下されるリスクがある。

正確性が真実と混同されると、特に人間の判断や倫理的配慮が重要な分野で危害が生じるリスクが高まる。

さらに、過去のデータに依存しているAIは、既にある偏見や不公正を深刻化する可能性もある。偏ったデータでトレーニングされたAIは、その予測がいかに正確に見えたとしても、偏った結果を生むことになる。

刑事司法システムに利用されるあるAIプログラムが、過去の犯罪データに基づいて予測すると想定しよう。その場合、客観的な真実を示すのではなく、社会的偏見を反映して永続化させ、特定のコミュニティーに不当な影響を与える可能性がある。

正確さは真実性を意味しないことを深く理解した上でAIシステムを開発および導入することが、この複雑な状況を乗り切るために極めて重要である。AIテクノロジーを包括的にかつ誠実に応用するためには、倫理的配慮、人間による継続的な監視、そして多様なデータインプットを統合することが不可欠である。

このためには、AI開発者が、自らのモデルの限界や説明のつかない変数によって不正確さが生じ得ることを、率直に明らかにする必要もある。

AIのトレーニングに広く使われる平均二乗誤差(MSE)は、AIがなぜ真実と正確性を混同するかという問題の根源である。MSEはAIが予測精度の評価に用いる標準指標であり、連続的な数値予測の評価には適しているが、真実のような離散的あるいは抽象的な概念の評価には向いていない。

連続値と離散値の違いは、日常的な例を使って説明できる。連続値は、20℃、20.1℃、20.12℃といった温度計の測定値など、ある範囲内の任意の数値を取って滑らかに変化できる。連続値の脈絡で、ある医師の正確性が81.3%であるとは、その医師が診察する1,000人の患者を診るごとに、平均813人の患者を正確に診断していることになる。

他方、離散値は、中間の数値がない特定の離れた数値しか取らない。例えば、リンゴは1個、2個、3個と数えられるが、2.5個となることはない。

色々な意味で真実は離散的である。例えば、私はドゥトゥニ村で生まれたが、この情報は真実か偽りのどちらかであり、その中間はない。その結果、私がロンドンで生まれたとの主張はまったくの偽りであり、その中間は存在しない。

真実は離散的で、連続的ではない。連続値は流れる小川のようなもので、離散値ははっきり見える階段のようなものである。

真実とは、数値偏差に基づくMSEでは捉えることができない、機微に富んだ定性的な側面を含んでいる。例えば、労働時間などの定量化できる指標を使用して従業員のパフォーマンスを予測する場合、AIモデルのMSEは低くなる可能性がある。しかし、これは従業員の幸福度や仕事の満足度、倫理的行動といった根本的な真実を考慮していない。

 

真の評価に不可欠なもの

こうした定性的因子は真実性評価のために極めて重要である。しかしMSEに重点を置いた評価ではこれらが無視されており、包括的かつ誠実な洞察をこの指標のみに頼って行うことの限界を浮き彫りにしている。

生成AIの時代になった今、私がGoogle Geminiに「チアネオ・マルワラとは誰か」と尋ねたときの回答はこのようなものであった。「チアネオ・マルワラは、南アフリカのヨハネスブルグ大学の元副学長兼校長です。彼は、人工知能とさまざまな部門へのその応用分野の研究で有名です。ヨハネスブルグ大学のチアネオ・マルワラ奨学基金は、恵まれない生い立ちの女性が第四次産業革命に関連する分野を大学院で研究することを支援しています。」

Google Geminiが提供する情報は、「チリツィ・マルワラ」に関してであれば極めて正確だが、「チアネオ・マルワラ」に関してでは正確ではない。だが、この回答は、私の祖母であるチアネオ・マルワラについて聞かれたのに対し、チリツィ・マルワラについて説明しており、真実ではない。この結果は、インターネット上で「チリツィ」に関する情報が「チアネオ」よりはるかに多く、確率の法則によりGeminiがチアネオをチリツィと混同したために生じた。

このようなシナリオから、私たちは生成AIを使用する際に極めて慎重にならざるを得ない。私が特定の医療診断について質問した場合、こうした回答がどのような意味を持つか考えてみてほしい。生命を脅かす結果になりかねないのだ!

もう一つの例として、AIを搭載したAmazonの採用ツールがある。これは、履歴書を評価して候補者を選考することによって採用業務を容易にするために作られた。このツールは過去のデータを分析し、その会社で成功を収めた採用者のパターンを特定した。

しかし、このAIシステムは性差別的であり、女性候補者への偏見があるとが後に判明した。この偏見が生じた理由は、AIをトレーニングするために使用した過去のデータが主に男性応募者の履歴書からなり、テクノロジー業界における男女の不均衡を強調していたためである。その結果、「女性チェスクラブの主将」といった女性の履歴書によく見られる用語を使った履歴書は、その用語が応募者の能力の欠如を示すわけでもないのに、AIが誤って評価を下げてしまっていた。

この例は、過去のデータに基づくAIの正確性が、男女ともに等しく才能があるといった真実を反映していないことを示している。

AIの正確性は実用的かもしれないが、真実の代わりにすることはできない。AIは私たちの生活に浸透し続けており、正確性の限界を認識してそれに対処することが、責任感と倫理感を持ってAIの可能性を最大限に活用するために不可欠である。私たちが正確性という幻想に欺かれるのでなく、この相違点を認識してこそ、AIが誠実かつ公平に人類に貢献するようにできる。

真実を究明する上で、状況、倫理、複眼的視点のすべてが役に立つ。真実を確保するには、現実世界への影響の厳密な検証、人間による継続的な監視、そしてAIのアルゴリズムに組み込まれた仮定や偏見に関する透明性が必要になる。

私たちは、AIが生み出すものをより広範な社会的、倫理的枠組みの中で積極的に疑い、解釈して、AIに基づく意思決定や行動が公正かつ公平で、人間の経験や環境の真の複雑さと調和するようにしなければならない。

したがって、「AIの正確さは必ずしも真実ではない!」という言葉を、AIの世界に浸透させることが極めて重要である。

・・・

この記事は最初にDaily Maverickに掲載されたものです。Daily Maverickウェブサイトに掲載された記事はこちらからご覧ください。

著者

チリツィ・マルワラ教授は国連大学の第7代学長であり、国連事務次長を務めている。人工知能(AI)の専門家であり、前職はヨハネスブルグ大学(南ア)の副学長である。マルワラ教授はケンブリッジ大学(英国)で博士号を、プレトリア大学(南アフリカ)で機械工学の修士号を、ケース・ウェスタン・リザーブ大学(米国)で機械工学の理学士号(優等位)を取得。