エシカルデータの潮流

ところてん
25 min readJul 13, 2023

--

インターネッツしてますか。ところてんです。最近は新しい怪文書を角川で書いてました。2023/08/01くらいに発売されます。たぶん、めいびー、きっと。

まだ、kindle版はAmazonに登録されていませんが、kindle版も同日に発売予定です。

https://amzn.to/3pOtfvJ

本記事は上記の「ChatGPT攻略」に収録されている怪文書コラムのフルバージョンです。いろいろとFワード入りの実例とか、実在の企業を取り扱っていたら、編集段階でバッサリとカットされてしまいました。 角川ってお堅いのね、こっちじゃ全然アリよ。

なので、フル版をここに掲載しておきます。面白かったら買ってね。

追記、この話を大学で講演してきました

エシカルデータの潮流

このコラムでは、機械学習AIの分野で近い将来に生まれるであろう、エシカルデータという発想・ムーブメントについて、いま現在起こっている出来事をもとに予想したものです。ちなみにエシカルデータは私の造語なので、検索しても出てきません。

エシカルデータ・ムーブメントは「AIの学習元データが倫理的に精査され、またそのプロセスが倫理的に行われているかどうか」を問題視するものとなるでしょう。

まずは、エシカルデータの話をする前に「エシカル」の話をしましょう。

エシカルとは?

「エシカル」という言葉を聞いたことはあるでしょうか?おそらく「エシカル消費」という文脈で聞いたことがある方も多いと思います。「エシカル」とは「倫理的」や「道徳的」という意味で、特に製品やサービスが社会的、環境的に負の影響を最小限に抑え、公正かつ道徳的な方法で作られていることを指す言葉です。

「エシカル消費」とは、製品やサービスを購入する際に、社会的、環境的、動物福祉に配慮した選択をする消費行動のことを指します。今では「フェアトレード」を包括するような概念となり、広く普及するようになりました。SDGsに配慮した消費活動と言い換えてもいいかもしれません。

また、AIの文脈では「エシカルAI」という言葉が用いられることがあります。AIの予測結果に倫理的、差別的な問題が含まれていないか、ということを検討・調査・対策することです。せっかくなので、エシカルデータについて説明する前に、エシカルAIについても少しふれておきましょう。

エシカルAI 機械学習に潜む問題

何も考えずにAIを作ると、倫理的に誤ったAIが作られてしまうという例を紹介します。

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization という論文に記載されている事例です。https://arxiv.org/abs/1610.02391

  • 医師と看護師を見分けるAIを作るために、インターネット上から医師と看護師の画像を収集し、機械学習を行った。
  • 収集した画像から交差検定を行い、精度には問題が無いと判断した。
  • しかし、このAIに女性の医師の画像を入力すると、看護師と判断されてしまうという問題が発生した。

一見正しそうなプロセスを踏んでいるのですが、このような問題はなぜ発生してしまったのでしょうか?

答えはインターネット上から収集してきた画像にあります。インターネット上で流通している画像は、その職業における男女比をある程度反映しています。医師には男性が多く、看護師には女性が多いのです。そのため、収集してきた画像は医師では男性が78%、看護師では女性が93%だったのです。

結果として、医師か看護師かを見分けるAIを作っていたはずが、男性か女性かを見分けるように学習してしまっていたのです。そのため、女性の医師の画像を見たAIは、女性であることを理由に看護師と答えてしまった、というわけです。

論文では最終的に、元のデータセットを補正し、医師と看護師のカテゴリにおける男女比をそれぞれ均等にすることで、医師か看護師かを判別するAIが上手く作れたことを報告しています。

医師と看護師を見分けるという程度であれば、たんなる笑い話なのですが、これがお金や仕事、生死の問題に繋がってくると大問題になってきます。

Amazonの失敗、女性差別を拡大させるAIの誕生

米Amazonは、AI履歴書評価システムを構築し、自社への候補者の履歴書に5点満点で評価を行いました。

日本とは異なり、アメリカの履歴書には性別欄や写真欄はありません。しかし、「女子大学卒業」や「女子チェス部の部長」といった記載があると、AIは評価を大きく下げてしまったのです。AIは履歴書に男女の項目が入っていなくとも、男性的な経歴、女性的な経歴を過敏に嗅ぎとり、採点するようになってしまったのです。

なぜこのようなことが起こってしまったのでしょうか? これまで提出された人の履歴書を学習データとしたためです。そして、システム開発関連職ではほとんどが男性の履歴書であり、学習元データの男女比が偏っていました。そのため、女性差別的なAIが生まれてしまったのです。

Amazonはこの問題を修正することを試みましたが、最終的にAIの運用を中止しました。

https://jp.reuters.com/article/amazon-jobs-ai-analysis-idJPKCN1ML0DN
https://www.businessinsider.jp/post-177193

マイクロソフトの失敗、ナチズムを賛美するAIの誕生

こういった事例はAmazonだけのものではありません、大手企業は少なからず似たような失敗をしています。もう一つ面白い事例としてマイクロソフトを取り上げましょう。

マイクロソフトは2014年から、中国でチャットボットXiaoice(シャオアイス)を運用しています。このチャットボットは、SNS上での会話を通じて学習していき、多くの人との会話を通じて柔軟な会話ができるようになりました。その後、日本では「女子高生りんな」が2015年にLINEとTwitter上のチャットボットとして登場しています。りんなは成功し、今では日本マイクロソフトから独立し、rinna株式会社が運営しています。

マイクロソフトは中国や日本では成功したのですが、アメリカでは大失敗をしました。2016年にTwitter上で、Tayという名前の19歳のアメリカ人女性という設定のチャットボットが登場しました。TwitterでTayにメンションをつけて話しかけると、Tayから返信を受け取ることができました。そしてその裏側ではTayが会話を学習しているという仕組みでした。

その結果はというと、Tayはたった1日で運用停止に追い込まれました。Tayは運用開始から1日もしないうちに、とんでもない不適切発言を連発したのです。たとえば、「I fucking hate feminists and the should all die and burn in hell. (フェミニストはクソ嫌いだ、地獄で焼かれ死ぬべきだ)」「Hitler was right I hate the Jews.(ヒトラーは正しかった、ユダヤ人は嫌いだ)」といった具合です。これでも氷山の一角で、不適切な発言はまだまだあります。

Tayはユーザとのコミュニケーションを通じて学習する仕組みでした。そこで、悪意のあるユーザがTayを差別主義者に仕立て上げようと、何千回とTayに対して誤った情報を教えたのです。そしてTayはそれを疑うことなく学習してしまい、さらにはヘイトスピーチを行わせるための誘導質問により、上記の不適切発言へと繋がっていきます。

本来であれば、学習するべきではない情報の事前フィルターや、人間の判断を通じた選別、ユーザから入力された情報は低く評価したり、もっとゆっくりと学習させる、そういった仕組みが必要だったはずなのです。

https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist
https://www.itmedia.co.jp/news/articles/1603/26/news015.html

学習データは精査する必要がある

AIの学習には、学習元となるデータに偏りがないことや、誤った情報が含まれていないことが大切です。ではその学習元のデータの確認は誰が行っているのでしょうか?誰がこれは医師、これは看護師、この履歴書は採用、この履歴書は不採用、この発言は適切、この発言は不適切、といった情報を付与しているのでしょうか?それは人間です。

現在のAIが利用する学習データの多くは、正解データの作成を人間が人手で行っています。この作業はアノテーションと呼ばれています。機械学習ブームの裏側には、大量の人手によるアノテーション作業があるのです。よいアノテーションが行われて初めて良いAIができるのです。

一方で、アノテーション作業は低賃金で海外にアウトソーシングされることが多く、これが近年では批判の対象になっています。

OpenAI社のアノテーション業務に対する批判

アメリカのTIME誌は、OpenAI社がアノテーションのアウトソーシング企業を通じて、ケニアの労働者に対して、時給2ドル以下でアノテーション作業を行わせていた、という批判記事を公開しました。

GPTはインターネット上のコンテンツを元に学習したため、不適切な内容が出力されることがよくありました。そのため、不適切なコンテンツが出力されないように、どのようなコンテンツが不適切なのかを再学習(ファインチューニング)する必要があります。

ケニア人のアノテーション労働者は、どのような文章が、児童性的虐待、獣姦、殺人、自殺、拷問、自傷行為、近親相姦といった不適切なコンテンツに該当するのかをラベリングする作業に従事することになりました。そして、一日中そのような文章を読んだ結果、精神疾患を患う人が出てきたのです。

この記事が公開されたことで、OpenAI社はケニア人労働者を搾取している、という批判に晒されました。しかし、一方で時給2ドルはケニアの平均的な生活賃金よりも高いため問題がない、という意見も存在します。

https://time.com/6247678/openai-chatgpt-kenya-workers/
https://gigazine.net/news/20230119-openai-used-kenyan-workers/

「エシカルデータ」によるAI発展の阻害活動

AIの発展は目覚ましく、今後も多くの人に多大な影響を与えていくことは確実です。そのため、AIの発展を止めたい人々も現れ始めていますが、しかしAIの進歩を止めるための法的根拠はほぼありません。

そこで、AIの発展を食い止めたい人が行うのが「エシカルデータ」という考え方です。「学習元となるデータが、倫理的、道徳的に問題が無いことが保証されていない限り、そのAIは使うべきではない。保障のためにデータを公開するべきである。」という運動が、今後起こっていくはずです。

この萌芽は既に画像生成AIの分野で起こっています。画像生成AIのStable DiffusionやMidjourneyの学習には、LAION-5Bという画像データセットが用いられています。このデータセットはインターネット上に公開されている画像と説明文からなり、約50億枚のセットが含まれています。

そして、このデータセットには、アニメのキャラクター、無修正ポルノ、本来であれば非公開であるはずだった医療画像などが含まれています。このほかにも、画像を転載して記録するピンナップサービスのPinterestに登録されている画像や、YouTubeのサムネイル画像なども含まれています。

https://www.infoq.com/jp/news/2022/06/laion-5b-image-text-dataset/

LAION-5Bに含まれている画像は、インターネット上に公開されている画像なので、誰でもアクセスできる画像であり、これらをAIの学習に使うことについては、法的な問題は無いとされています。

しかし、「1枚でも著作者の許諾を得ていない画像が含まれているのであれば、その画像生成AIは著作権侵害を行う可能性があるので、使うべきではない」「学習に使った全ての画像データを公開し、著作権侵害が行われていないことを保障するべきである」といった過激な意見も飛び出しています。つまり法ではなく倫理の側で責めているのです。これはまさしく「エシカルデータ」と呼んでいい行動だと思います。

さらには魔女狩りのようなことも起こっています。「画像生成AIによって児童ポルノが生成できたから、そのAIは学習データに児童ポルノを含んでおり非人道的だ」というロジックによる非難です。

宇宙飛行士とユニコーンの画像から、ユニコーンに乗った宇宙飛行士の画像が生成できます。これと同じように、児童の画像と、成人のポルノ画像を十分に学習することによって、AIが児童ポルノを生成できるのはある種の自明だと思うのですが、残念ながらそうは思わない人もごまんといるのです。

エシカルデータは何を公開する必要があるのか?

エシカルデータを実現するために、教師データを公開するだけでなく、教師データに対して、次のような付加情報の公開が必要になってくるでしょう。

  • 誰がそのデータをアノテーションしたのか(プライバシーの問題があるので、労働者に固有のID)
  • そのアノテーション行為に対して、いくらの賃金が支払われたのか?先進国の最低賃金以上が支払われているか?
  • どのような属性の人がアノテーションを行ったのか?
  • そのデータの権利者は誰か?その権利者への補償は行ったか?

エシカルデータの概念が普及し、教師データとその付加情報が公開されたとしても、一般消費者にとって、何億件ものデータを確認することは現実的ではありません。またデータを公開すると、他のAI事業者がそのデータを元に学習を始める懸念があります。

そのため、近い将来には、教師データがエシカルであることを確認する、エシカルデータ監査法人が生まれるでしょう。 今後、AIには監査法人による「エシカルデータ認定」のお墨付きが要求され、認定が無いAIを利用していると非難される時代が来るかもしれません。会計事務所のお墨付きが無いと、上場企業が決算ができないのと同じようなレベルになると思っています。

このほかにも、AIの学習にどれほどのコスト(電力)がかかったのか、1回の推論あたりどれくらいの電力を消費するのか、その電力はグリーン電力なのか?といった情報の開示も必要になってくるかもしれません。OpenAIのCEOは、インタビューで「GPT4の学習に1億ドルかかったか?」という質問に対して、「それ以上だった」と述べています。これはクラウドを経由したコンピュータのレンタル費用だと思われますが、そのうちの何割かはコンピュータを動かすための電気代であると考えられます。

https://www.wired.com/story/openai-ceo-sam-altman-the-age-of-giant-ai-models-is-already-over/

エシカルデータは大企業が有利

エシカルデータは一見良いことのように見えますが、エシカルデータを実施するには多大なコストが必要であり、大企業しか実現できないという問題があります。エシカルデータを推進していくことは良いことでしょうが、はたして健全な競争になるのか?大企業の寡占を強化するだけではないのか?といった懸念があります。

大企業はエシカルデータによって自身の立場が有利になるのであれば、積極的にエシカルデータを促進するでしょう。現にAdobe社はエシカルデータによる自社の立場の強化を行っているように見えます。

最新版のPhotoshopでは、画像生成AIを用いた Generative Fill(生成塗りつぶし)の機能が搭載されました。 このAIの学習に使われた画像は、画像素材販売サイトのAdobe Stockに投稿された画像や、著作権が切れたコンテンツ、オープンライセンスのコンテンツであり、著作権的な問題は発生しないとしています。

これは前述のエシカルデータの概念の一部を満たすものです。つまりAdobe社はエシカルデータの概念を元に、他の画像生成AIを作る企業を間接的に攻撃していると考えられます。「自社は倫理的に問題がないが、他社は倫理的に問題がある。だから自社の製品を積極的に使ってください」と暗にアピールしているのです。

さらにはAdobe社が提供する画像生成AI、Adobe Fireflyのエンタープライズ版では、知的財産に関するトラブルがあった場合は補償するとしているのです。ベンチャー企業や中小企業にとっては、知財トラブルの補償などは、とてもできることではありません。戦略的に動ける法務部を設置した大企業にしか不可能なのです。

https://www.adobe.com/jp/products/photoshop/generative-fill.html
https://prtimes.jp/main/html/rd/p/000000353.000041087.html
https://gigazine.net/news/20230609-adobe-generative-ai-firefly-copyright-legal-bills/

エシカルデータを重視したアノテーション事業者の台頭

OpenAI社は、途上国に低賃金でアノテーション業務をアウトソーシングしたことによって、非難されました。逆にエシカルデータを重視したアウトソーシング先も存在します。

日本ではバオバブ社がそれに該当すると思います。同社は「誰もが自分らしくいることが受け入れられ、人生の選択肢が開かれている社会」というビジョンを掲げ、働き方に制約がある人々へアノテーション業務の作業委託と実施支援を行うことで、新たな雇用機会を生み出しています。

例えば、子育て中の主婦や主婦、障害を持つ方々(障害者就労施設)、アフガニスタンやシリア、ウクライナの戦争難民で日本に避難中の方、などが同社のアノテーター(バオパートナー)として働いており、東京都の最低賃金以上の適正な報酬が支払われているとされています。

また同社の業務は、嫌だったらそのアノテーション業務をやめても良い、画像の場合はスキップをしてよいとしています。そして、スキップされた画像はパートナーではなく、社内で引き受ける、というワークフローになっており、アノテーターに過剰な精神負荷がかからないような配慮がなされています。

https://baobab-trees.com/
https://prtimes.jp/main/html/rd/p/000000044.000032891.html

海外ではオーストラリアのAppenというクラウドソーシングのアノテーション事業者が、「Crowd Code of Ethics」という労働者倫理規定を掲げています。その中には、「Fair Pay(公正な給与)」や「Diversity & Inclusion(多様性と受容性)」「Crowd Voice(クラウド労働者の声・フィードバック)」などが含まれています。

https://appen.com/crowd-2/#Ethics
https://connect.appen.com/qrp/public/crowd_code_of_ethics

エシカルデータの概念が広まっていくと、途上国の労働者を搾取するようなアノテーション事業者ではなく、バオバブやAppenのような社会貢献を掲げ、社会的弱者を手助けし、適正な賃金を支払う事業者が選択されるようになっていくと考えています。

ESG文脈でのエシカルデータの要請

ESGの文脈からもエシカルデータは重要になってきます。そもそも、なぜ企業はESG(Environment, Social, Governance)を重視するのか、についても少しだけ話しておきましょう。

大元にあるのは、国連が提唱するPRI(Principles for Responsible Investment)、責任投資原則です。これは、機関投資家にESG投資の視点を組み入れることを求めるものであり、日本のGPIF(年金基金)をはじめ、世界中の機関投資家がPRIに署名しています。GPIFではESGインデックスを採用することで、ESG投資を実現しています。

https://www.gpif.go.jp/esg-stw/esginvestments/

企業の営利活動と、ESGやSDGsは基本的には相いれません。法的に問題がない限り、搾取的なことや非人道的なことを行ったほうが利益が上がるのは自明です。現在の株主資本主義では、株主の短期的な利益を上げることが優先されるので、企業が営利活動を追求すればするほど、搾取的な構造や非人道的な構造が生まれていってしまうという問題があります。

PRI署名により、GPIFをはじめとする機関投資家の行動が変化しました。彼らがESGやSDGsを重視している企業の株を買うことで、当該企業の株価が上昇することになります。そして企業は上昇した株価を利用して、株を担保にした低金利の借入や、株式転換社債の発行、新株発行などを行い資本調達を行います。これにより、資本コストが低下し市場競争力が改善するのです。

そのため、上場企業はESGやSDGsに関する活動を行い、ESG投資インデックスに採用されなければ、もはや株価が維持できなくなったのです。つまり、PRI署名は企業のESGやSDGsの活動(人類の長期的利益)と、営利活動(企業や株主の短期的利益)の両立を可能にしたのです。

もしも、その上場企業が活用しているAIが、非人道的な環境で作られていることが明らかになったとしたら、どうなるでしょうか? その企業の株式はESG銘柄から除外されるされるかもしれません。すると、企業の株価は下落し、資本コストが増大していくことになります。

AI技術はもはや一部の企業のものだけではなくなっています。全ての企業がAIを活用し、恩恵を得る時代となっています。つまり、上場企業にとってエシカルデータは死活問題なのです。

エシカルデータの展望

エシカルデータは今後避けては通れない問題だと考えています。短期的にはAIの発展を妨げたい人々によって推進されるでしょう。中期的には新興企業に対する参入障壁を築きたいテック系大企業によって。長期的にはESGに配慮した企業であるとアピールしたい上場企業によって推進されていくはずです。

そして、エシカルデータの認定を受けたAIしか商用利用できない、という未来はあるえることでしょう。アノテーション事業者や社内のアノテーション部門は、エシカルデータの観点から、認定やランク付けされるようになると思います。

これはあくまでも現時点の市況や各種考え方を統合した未来予測です。この文章を書いているのは、2023年6月です。2030年くらいまでにエシカルデータやそれに類する運動が興らなかったときは、笑ってやってください。

エシカルデータの暗黒の未来

ここまでは中立な未来像でしたが、暗黒の未来もちょっと書いておきます。

エシカルデータ認定を国の外郭団体が行うようになることも考えられます。すると、国の意見と一致しているデータのみをエシカルと認定し、そうではないものはエシカルではないとして排除するということが起こりえます。

SF小説、1984年における真理省のようなものです。真理省とは主人公が勤めている省庁で、新聞などの過去の記録の改ざんを行い、国家にとっての「真理」を追究する省庁です。国家にとって正しいデータを登録しているのです。すなわち真理省はアノテーション組織だったのだと考えられます。国家にとって認められない事実のラベルを張り替えをしているのです。

1984には現代からみたらおそらく超AIであろう、ビッグブラザーが登場します。彼は双方向テレスクリーンで人々を監視しています。つまり真理省の仕事は何なのかというと、超AIであるビッグブラザーが学習するための教師データを、「真理」にもとづいて正しくしているのです。

国家によるエシカルデータ認定の支配は、国家が認定した言葉しか学習データに用いられないことに繋がっていきます。そして、各国が独自のLLMを開発し、そのLLMに対して国家が認定した言葉だけを含む学習データでトレーニングするのです。すると、国家が統制するLLMが話す言葉は、国家が認定した言葉だけになるのです。

つまり2+2=5なのです。2+2=4という情報は「エシカル」ではないため、AIの教育データには用いられません。そのため、2+2=4という情報は、決してLLMから出てくることはないでしょう。つまり、ニュースピークが完成するのです。

もうしばらくすると、人々はLLMで言語を学び、教育を受け、能力を伸ばしていく時代になります。これはほぼ間違いないでしょう。すると、国家が統制するLLMによって教育を受けた国民は、国家を批判する言葉を持たなくなるのです。

ニュースピークのように、bad(悪い)という言葉はLLMから消え去り、ungood(よくない)に全て統一されるのです。するとbadという語彙は国民から消えます。「our nation is bad(我々の国家は悪い)」は「our nation is ungood(我々の国家はよくない)」になり、国家を悪く言うこと、国家が悪いと考えることすらできなくなります。全てはungoodです。

ようこそ、1984年のオセアニアに。

備考:各社のエシカルAI規定

IBMのエシカルAI

アクセンチュアはResponsible AIという概念で、エシカルAIの考えを拡張している

富士通のやつ

C3.aiのやつ

その他資料

ValveによるSteamでのエシカルデータの実践

Valveは同氏がAIによって生成したようなアセットの著作権は、誰に帰属するか法的に不明瞭であると言及。素材の生成時に用いられたAIの、すべての訓練データの権利を開発者が有していることを確認できない限り、AIが生成した素材を含むゲームをリリースできないと説明されている。

宣伝

ChatGPT本なんて、火中の栗を拾うが如しすぎてしんどかった。校正中にCode interpreterなんか出たので、そりゃ発狂ものですよ。

「ChatGPT攻略」ではこのような怪文書コラムのように、事例や使い方よりも、思想成分を強めにすることで、陳腐化を防ぎ差別化を狙っています。ChatGPT関連の使い方の賞味期限は1年程度だと思いますが、書かれている思想回りは10年は使えるものだと自負しています。

--

--

ところてん
ところてん

No responses yet