情報Ⅰ本、未収録原稿供養 その2

ところてん
26 min readNov 6, 2023

情報I本の未収録原稿その2です。ChatGPT回りと機械学習関連です。ChatGPT回りはかなりの量の原稿を書いたのですが、他の原稿を優先した結果、バッサリと捨てられました。生成AIは日進月歩なので、普遍性を考えたら落としたのは正解だったんじゃないかなーと思います。

検索エンジンとLLMの統合、利点と問題点

先に述べたように、検索エンジンは個別具体の知識を得意としますが、演繹や推論は苦手です。一方でChatGPTは個別具体の知識の知識は苦手ですが、演繹や推論は得意です。Bing Chatは検索エンジンにChatGPTを組み込むことで、両者の苦手とすることを相補的に補うことに成功しています。

これにより、人は検索結果の個別のウェブサイトを大量に読む必要はなくなり、生成された情報を読めばよい時代になってきているのだと感じさせてくれます。この流れはMicrosoftのBingが先行し、Googleもそれに追従している状態です。

それではBing Chatに、「税金払いたくない」という人類の永遠の悩みについて、聞いてみましょう。

「税金払いたくない」という質問は「税金の必要性」という検索クエリに変換されました。そしてBingを通じて検索が行われ、出てきたウェブページのコンテンツを元に回答文が生成されています。回答文には、どのウェブページから生成されたものなのかのリンクが付いているため、一見して正しそうな答えを返しているように見えます。

しかし、現状のBing Chatにはいくつかの問題点があります。

一つは日本語と英語の問題です。日本語で質問すると、日本語で検索するので、日本語のウェブサイトしか資料として使われないのです。アメリカの政策を調べるには、英語で質問して、英語で検索してもらい、英語のウェブサイトを閲覧してもらうしかありませんでした。したがって、参照されるデータソースが質問する言語に依存するという特性があるので、注意が必要です。

もう一つは、そもそもの検索エンジンとしてのBingの性能が悪いため、アフィリエイトサイトなどの、信頼性が怪しいウェブサイトを情報源としてしまうことです。情報を調べる際は、企業の公式サイトや政府のサイトを優先してほしいのですが、そういう挙動は現状ではしていないようです。

加えて、質問文から適切な検索クエリを生成できていないことが多々あります。質問文の中の情報を積極的に取り入れようとするのです。そして、複雑なクエリが出来上がり、公式サイトや政府のサイトに到達しなくなり、アフィリエイト業者のウェブサイトなどの信頼性の低い情報を参照することになってしまいます。

さらには、ウェブサイトの情報を閲覧したうえで、ハルシネーションを起こした回答をおこなうことがあります。以下は実例です。Amazonのウェブページを参照したうえでリストを作成しているので、一見正しそうに見えますし、本も実在のものです。しかし2020年に出版された書籍は、この中に一冊も含まれていないのです。

また、2020年に出版された日本酒の書籍リストを得るためには「3冊」というキーワードはどう考えても不要なのですが、検索クエリを生成する際にそういった判断ができていないことがうかがえます。

とはいえ、これは2023年時点の性能の話です。これらの問題は将来的にはジワジワと解決されていくことだとは思います。

以下は余録ですが、Googleは自社の開発しているLLMのBardをGoogle検索に統合しようとしています。現在はβ版で提供されており、以下はGoogle検索において、生成AIを利用した検索結果の要約です。将来的にはこのような形で、検索と生成は渾然一体となっていくでしょう。

Googleの検索画面からの生成AIの利用は、少し触った限りでは、こちらもまたハルシネーションを起こしています。現状の性能だと概要を理解するには使えるが、仔細の裏取りをするには、結局リンク先まで見に行かなければならないという状態です。とはいえ、これも数年後には改善されているのではないかと思います。

抽象で尋ねてから、現実に適用する

ChatGPTを使う際のコツはいくつかありますが、その一つが抽象で尋ねて現実に適用することです。

ChatGPTに現実の課題をそのまま尋ねるのは、実はスジが悪いのです。一度、ChatGPTが解けるであろう問題に課題を変換します。ChatGPTのもつ「常識」をうまく使うには、問題を抽象化して一般論にする必要があるのです。ChatGPTは入力された抽象化された課題を元に、常識に基づいて演繹・推論を行い、解決案を出力します。この出力結果を、自らが抱えていた問題に適用させることで、ChatGPTを利用した課題解決がうまくできるようになります。

この流れを図にすると次のようになります。

一般的な悩みや、ビジネスの質問であれば、抽象化せずにそのまま流し込んでも、ChatGPTが勝手に抽象化して一般論にしてくれます。そして一般論に基づいて、解決案を提案してくれます。

また、抽象化のプロセスそのものをChatGPTに頼ってもいいかもしれません。自分が現在抱えている不安を、全部吐露して、その要約を依頼するのです。これにより、一般論を得ることができるので、一般論に対する解決案を要求することができます。

これが特に効果を発揮するのが、複雑なプログラムをChatGPTに依頼する場合です。この際は、対象となるデータ構造を具体的に明示することが重要です。具体的なデータ構造(例:配列、連結リスト、ハッシュマップなど)を指定すると、そのデータ構造に特化した効率的な解法やコードスニペットが提供される可能性が高まります。このように問題定義を明確にすることで、後でコードをリファクタリングする手間が省けるだけでなく、パフォーマンスの向上にもつながります。

ただし、具体性が過剰となるほど詳細な場合、特に現実のアプリケーションに近い例で多くのメンバ変数やメソッドを持つクラスが含まれる場合は、注意が必要です。このような場合、不必要なメンバ変数や詳細を削除してから質問することが推奨されます。これにより、問題の本質により密着した、クリーンで再利用しやすいコードが生成される可能性が高くなるでしょう。

要するに、具体的なデータ構造を明確にすることと、過剰な詳細を削減することのバランスが重要です。これらを考慮に入れることで、効率的かつ実用的なプログラムの開発がより確実に行えます。

実はこの話は、これは前章のコラムで話をした、「なぜ数学や情報技術は課題解決ができるのか?」という話とほぼ同じだったりします。

ChatGPTはシステム1の思考を模倣している

心理学や行動経済学の分野では、人間にはシステム1とシステム2という二つの思考モードが存在するとされています。ノーベル経済学賞受賞者のダニエル・カーネマンが書籍「ファスト&スロー(早川書房)」を出版したことで、この概念は広く一般に認知されることになりました。以下の表はその性質と事例をまとめたものです。

では人間のシステム1の実験をしてみましょう。この画像を見てください。

あなたは「怒っている男性である」と一瞬で読み取ったはずです。感情を読み取れという指示はしていません。人の感情を読み取る行為というのは人間はシステム1で無意識的に行っているのです。

素のChatGPTは、実はシステム1の思考しか提供しません。「次の言葉を予測する」のはシステム1の能力です。ただし、この能力が極限まで高まった結果、システム2の思考を行っているように見えるのです。

ChatGPTはシステム2の「複雑な計算」を実行しているのではなく、全てをシステム1の思考で、なんとなく紡いで複雑な動作をしています。ChatGPTがシステム1の思考しか出来ていないという傍証の一つは、複数桁の掛け算ができないことです。9×3607×3803の答えは123456789です。それではこれをChatGPTに尋ねてみましょう。

見事に誤った答えを返してきました。ChatGPTはなんとなくで言葉を紡いでいるので、掛け算のような複雑な工程が必要な処理を行うことができないのです。必要に応じてAdvanced Data Analysis(旧Code Interpreter)やプラグインを適切に使い、ハルシネーションを抑制することが求められます。

ちなみに怒っている男性の画像は「a man, angry, portrait photo, white background」というプロンプトを用いて、Stable Diffusion XLで作成されました。

ChatGPTはAdvanced Data Analysisやプラグインで、システム2を限定的に実現する

前項でChatGPTは掛け算ができないという話をしましたが、これはAdvanced Data Analysis(旧Code Interpreter)を利用すると簡単に解決することができます。この機能は有料プランであるChatGPT Plusに月額20ドル(価格は2023年8月現在)で加入すると利用できます。実際に利用した際の様子を見てみましょう。

「9×3607×3803=」という入力はPythonのコードに変換され、コードが実行されることによって、正しい答えである123456789を得ています。

ChatGPTはシステム1の思考で立式を行い、それをプログラムとして処理することで、限定的ながらシステム2の思考を獲得するのです。

続いて、GPT-4のプラグイン機能を使ってみましょう。今回は数学の問題なので、Wolframを利用します。Wolframの開発元のWolfram社は数式処理システムのMathematicaを作っている企業です。

こちらもさっと正しい値を出してくれました。このように、ChatGPT単体ではシステム1の思考しか実現できません。システム2の思考を行いたい場合、Advanced Data Analysis(旧Code Interpreter)や目的に沿ったプラグインを適切に使う必要があるのです。

簡単な組合せ最適化の問題や、複数の制約があるナップサック問題程度であれば、Advanced Data Analysisはコードを生成して解くことができてしまいます。

ChatGPTはFAQには使えない

ChatGPTをカスタマイズすれば、FAQを簡単に作れるんじゃないか?という人がよくいますが、これは大間違いです。まずChatGPTを提供するOpenAI社のFAQ(https://help.openai.com/en/collections/3742473-chatgpt )を見てください。対話型インターフェースはありません。FAQの記事に対する検索フォームがあるだけです。

なぜFAQに使えないかというと、FAQは「公式見解」なので、FAQを生成してしまうと、ハルシネーションを起こした出力に公式性が付与されてしまうからです。何が顧客には許可されていて、何が許可されていないのか。何が公開情報で、なにが非公開情報なのか。FAQはこういった情報のコントロールも同時に行っています。そのため、「公式性」を与えたい情報は、人間が精査してコントロールしなければなりません。

FAQの前段階の案内であれば、ChatBotとして利用し、FAQの記事に案内することはできます。しかし、現状のChatGPTではFAQそのものの代替になることはありません。「公式見解」や「公式性」が必要な箇所では、生成AIによる動的なコンテンツ生成はできないのです。

生成AIによって労働の何が効率化されるのか?

生成AI(Generative AI)の進展により、労働の「作業」部分は目覚ましく効率化されています。文章生成からデータ解析、プロトタイピングまで、多くの作業が自動化または高速化されるため、時間と労力の削減が可能です。しかし、労働は「作業」と「レビュー」から成り立っており、この「レビュー」部分がしばしば見落とされがちです。

「レビュー」能力がない人が生成AIを使っても、その出力の品質は保証されません。生成されたテキストやデータが正確であるか、目的に適しているかを評価できなければ、AIの利用は無意味になりかねません。この点で、専門家やベテランの人材がますます価値を持つようになります。彼らは生成AIが生み出した内容を適切に評価、修正できる唯一の存在となるため、その需要は高まるでしょう。

一方で、生成AIの普及はジュニアスタッフや初心者の作業品質を向上させます。例えば、テンプレートやAIによる基本的な指導を受けることで、初めての作業でも高い品質を確保できる可能性があります。しかし、この場合も「レビュー」が必要です。

問題なのは、「作業」はできるが「レビュー」はできないという中堅層です。単純な作業がAIによって自動化されると、この層の人々は自らのポジションを維持するのが難しくなります。

特に注意が必要なのは、自分が検証できない10歩先の知識を生成AIに求めることです。これはベテランの「レビュー」が必要であるため、かえってベテランの仕事を増やしてしまっています。ここで大事なのは、「AIに尋ねていいのは、自分が検証可能な1歩先の知識だけ」という原則です。これによって、生成AIの出力が確実に品質管理され、効果的に活用されます。

総じて、生成AIは労働を効率化する強力なツールですが、その有効性は「作業」と「レビュー」のバランスに依存します。特に「レビュー」ができるスキルを持つ人々の価値は、このAIドリブンの時代において重要性を増していくでしょう。また、生成AIの出力を検証できるのは、自分が持っている知識の一歩先の知識だけです。すなわち、利用者には今も昔も勉強し続けることが求められるのです。AIがあるから勉強しなくてもいい、というのは戯言です。AIを使いこなすために勉強が必要なのです。

※以上の文章はChatGPTによって生成され、一部修正されました

生成AIのマルチモーダル化

生成AIには、数値、画像、文章、音声、動画など複数の情報を統合的に処理する、マルチモーダル型も登場しています。たとえばOpenAI社は、GPT-4の画像認識機能の様子を公式サイトに掲載しています。2023年8月現在、この機能は研究段階のもので一般ユーザには公開されていませんが、近いうちに一般公開されると思われます。以下はOpenAI社の公式サイトに掲載されている画像認識の様子です。

https://openai.com/research/gpt-4

ユーザは「この画像は何が面白いの?それぞれのパネルごとに解説して」とGPT-4に尋ねています。これに対してGPT-4は次のように返しています

画像は「ライトニング・ケーブル」アダプターのパッケージで、3つのパネルがある。

パネル1:VGAコネクター(一般的にコンピュータのモニターに使用される青く大きな15ピンコネクター)が充電ポートに差し込まれたスマートフォン。

パネル2:「Lightning Cable」アダプタのパッケージにはVGAコネクタの写真が貼られている。

パネル3:VGAコネクタのクローズアップで、先端に小さなLightningコネクタ(iPhoneやその他のアップル製デバイスの充電に使用)が付いている。

この画像のユーモアは、大きくて時代遅れのVGAコネクタを、小さくて最新のスマートフォンの充電ポートに差し込むという不条理から来ている。

このほかにもGPT-4は試験問題の図表を画像認識して回答したり、図表の入った論文を読んで要約したり、紙に書かれたウェブサイトのモックアップ(ペーパープロトタイピング)からHTMLとCSSを起こしたりできることが、公式サイトやデモ動画から明らかになっています。

https://www.bemyeyes.com/blog/introducing-be-my-eyes-virtual-volunteer より引用

筆者の友人の視覚障害者は、Be My Eyesという視覚障害者向けのサービスを利用しており、このサービスにGPT-4の画像認識機能がベータ版で搭載された事に大喜びしていました。

Be My Eyesは、視覚障害者がスマートフォンのカメラを通じて、オンライン上の晴眼者のボランティアに画像を送ることで、ボランティアに何が映っているのかを読み上げてもらうサービスです。現在は人間のボランティアの代わりに、GPT-4がバーチャルボランティアとなって読み上げを行ってくれる機能が実験的に提供されているそうです。

公式サイトの利用動画を見ると、画像の解説だけでなく、画像と質問文をセットにして送って回答してもらったり、回答に対してさらにチャットで質問を行うことができるようです。

友人は「ボランティアがあまりいない早朝に、食パンにカビが生えていないかをボランティアに聞くには気が引けるが、GPTであれば気兼ねなく聞ける」と語っています。

AIと人間とを比べた際の、何度でも、どんなくだらないことでも聞いても良いというのは、視覚障害者の心理的負担の低減に寄与し、心理的ハードルが無くなったことで、利用回数の増加や、果てはQoLの増加に繋がっていきくのだと思います。

民主主義(言論の自由)と生成AIの相性の悪さ

人工知能(AI)の進化は目覚ましいものがありますが、特に生成AIの登場によって、その影響が社会に多大なものとなっている。生成AIは、文章を自然に生成し、対話も可能であるため、人間と機械の区別がつかないほど高度になっています。

この進化は多くの便益をもたらしていますが、一方で、民主主義を脅かす可能性も高まっているとの警鐘が鳴らされています。

生成AIが文章を自然に生成できる能力は、フェイクニュースを作成するのが容易になっています。AIによって生成されたフェイクニュースは、かつてなら容易に見破ることができたものとは一線を画し、非常にリアルで信憑性が高いものとなっています。

さらに、AI製の「友人」がSNSで活動することによって、個人を取り囲み、フェイクニュースを信じやすい環境、いわゆるエコーチャンバーを形成する可能性が高まっています。これにより、低い費用で大量の人々の意見や感情を操作できるようになりました。

戦車一台の価格で、敵国の民衆を何万人も扇動することが可能なほど、フェイクニュースのコストパフォーマンスは高いのです。このような手段は、特に低いエスカレーションリスクで行えるため、多くの国や組織が目をつけています。

民主主義の根幹には言論の自由がありますが、これがフェイクニュースの拡散を阻止する障壁ともなっています。フェイクニュースに対する厳格な規制は、言論の自由に対する制限とも見なされ、その線引きが非常に難しいのです。

フェイクニュースは政治や社会に限らず、経済にも深刻な影響を与えています。特にSNSを用いての拡散力は強く、風説の流布と空売りを組み合わせて市場から資金を引き出すなど、新たな金融犯罪の形が出現しています。

2023年のG7広島サミットで、AIの国際ルール作成が合意されました。しかし、その内容がどれだけ実効性を持つのか、そして各国がどれだけそれに従うのかは、これからの課題となっています。

生成AIの進化は止まらないでしょう。その便益とともに、民主主義や経済に対する悪影響も拡大する可能性があります。厳格な規制と、それに続く言論の自由への影響。このバランスをどう取るかが、今後の大きな課題となっています。

生成AIが持つ可能性は無限大ですが、その影響が全てポジティブであるわけではありません。技術の進化に対する倫理的、政治的対応が急募されているのが現状です。これからの数年で、私たちはどのような未来を選ぶのか、その選択が今、求められています。

※以上の文章はChatGPTによって生成され、一部修正されました

学習済みモデルの問題点

この画像は何に見えますか?これは、小皿に入れられた梅干しです。梅干しは日本固有のもので、他国にあまり進出していないものです。そのため、日本文化を学んでいないAIには、この画像が何か分からないという問題があります。

メモ: https://commons.wikimedia.org/wiki/File:Umeboshi_20101209_c.jpg パブリックドメイン

この画像をGoogleが提供するCloud Vision APIを利用して認識させると次のようになります。

https://cloud.google.com/vision?hl=ja

認識結果は上から順に、Food(食べ物)、Plant(植物)、Ingredient(材料)、Gesture(ジェスチャー?)、Dish(皿)、Cuisine(料理)、Almond(アーモンド)、Recipe(レシピ)、Produce(農産物)、Petal(花びら)、Carmine(えんじ色)となっています。

同じように Amazonが提供する、Amazon Rekognitionという一般物体認識サービスによって、なにが写っているのかを推測させた結果です。

認識結果は上から順に、Plate(料理のプレート)、Food(食べ物)、Meat(肉)、Pork(豚肉)、Produce(農作物)、Dish(皿)、Meal(食事)となっています。

いずれも「梅干し」をうまく認識できていません。そもそも、いずれのサービスも分類用のラベルリストの中に、梅干しという情報が入っていないのです。

似たようなものに「将棋」があります。将棋盤の画像は、Google Cloud Vision APIではボードゲームや木材と判定されましたが、Amazon Rekognitionではコンピュータと判定されました。これらのAIサービスは、将棋の知識もまた持っていないのです。

基本的に学習済みのAIの多くは、欧米圏のデータに偏っています。そのため、梅干しや、将棋といった日本固有のものが正しく認識されないのです。学習済みのAIを活用する場合は、このような文化的な差異があることに注意してください。

画像認識AIだけでなく、画像生成AIにも似たような特性があります。Stable DiffutionやMidjourneyでは、梅干しや将棋という概念は学習されておらず、適切な画像を生成することはできませんでした。

このほかにも、同じ言葉だけれども微妙に意味が異なっているものというのもあります。たとえば、日本語の「バスルーム」と英語の「bathroom」では微妙に意味が異なっているのです。「bathroom」で画像検索をしてみると分かるのですが、bathroomにはトイレがあるのです。一方で「バスルーム」で画像検索すると、トイレが含まれている画像は出てきません。

学習済みモデルを利用する際は、こういった欧米圏へのデータの偏りを頭の片隅に入れて利用することが求められます。また、こういった問題を解決するには、日本に特有の事例を教師データとした機械学習モデルの学習や、ファインチューニングによるモデルのローカライズが必要となってきます。

コラム:未来の書店、本が生成される時代

文章生成AIであるLLM(Large Language Model)が普及してきたことで、私たちが”本”と呼ぶものの概念も大きく変わりつつあります。LLMの存在は、本がどのように生成され、どのように利用されるかを再定義しています。

将来のLLMは、対話を記録し、継続的に保存し、それに基づいて推論をすると考えられます。すると、従来の一般的な書籍よりも非常にパーソナライズされた情報提供が可能です。書籍とは、個人が何を知っているのか、何を学びたいのかに応じて、LLMによって自動的に再生成されるものになるのです。

このパーソナライズされた世界では、書籍自体がLLMに対する追加の「データベース」や「学習セット」になる可能性があります。著者の仕事は、人間が理解しやすいテキストを作成するだけでなく、LLMが理解しやすく、効率的に学習できるようなコンテンツを作成することも求められます。これにより、LLMはより高度な質問に答えられるようになるでしょう。

LLMが持つ豊富な対話データとユーザープロファイルに基づいて、より適切な書籍や情報がレコメンドされます。このレコメンドエンジンは、何を記録したか、何に興味を持っているかに基づいた高度な推薦が可能になるでしょう。

最も興味深いのは、LLMが個人の人生そのものを「コンテキスト」として活用できるようになる点です。たとえば、ある人が医学書を読むときに、その人が医学的な背景知識を持っているかどうかをLLMが理解しているため、必要な情報だけを独自に生成して提供できます。

未来の書店では、書籍を購入するという行為自体が変わります。おそらく、書店は「データセットショップ」に進化し、人々がLLMをより賢くする「追加パッケージ」を購入する場所になるでしょう。これらは、その人の能力や興味に応じて即座にカスタマイズされるのです。

LLMとその進化は、情報の消費と生成のあり方を根本的に変えつつあります。それぞれの個人が持つ独自の「知識」と「経験」に基づいて、LLMによって新しい形の「書籍」が生成される時代がすぐそこまで来ています。この変革は、私たちがどのように学び、どのように情報を共有するかに多大な影響を与えることでしょう。

※以上の文章はChatGPTによって生成され、一部修正されました

機械学習の導入は、装置産業化だと捉えて、収支計画を引く

「機械学習システムの導入で重要なスキルは?」と聞かれたら「管理会計」と答えます。損益計算書(PL)と貸借対照表(BS)と機械学習システム導入をリンクして語れるようになる必要があるのです。

機械学習プロジェクトにおいては、システムの開発・運用のコストと導入による効果(ROI、Return on Investment)がしばしば噛み合わないという問題があります。一般的な製造装置などの場合、導入コスト、生産性向上、売上増加、減価償却期間、メンテナンス費用などを元に収支計画が策定されます。この計画に基づいて、導入の可否が決定されます。

しかし、ソフトウェア、特に機械学習の場合、ROIを事前に正しく考慮するのが難しいという問題があります。なぜなら、機械学習の精度はやってみないと分からないという側面が大きいからです。また、維持管理のために、どれくらいの追加学習を定期的に行わなければならないのかも、本番環境に適用してからでないと分からないことが多いのです。

機械学習のシステムは買う側からしてみると、買ってみないと性能が分からない装置であり、使っていくと性能が下がってくる装置であり、どれくらいでメンテナンスをしないといけないのかが分からない装置なのです。そのため、不確実性が高すぎるため、なかなか導入の決断ができるものではありません。

機械学習プロジェクトのプロトタイプ開発では、場合によってはこの手の収支計画を引くこともサブゴールになります。顧客価値を定義し、要件定義を行い、目標精度を決定し、収支計画を作成することを目標にプロトタイプを開発するのです。

また、装置産業であるメリットは、処理量が増えても費用が増えにくいということです。したがって、機械学習のシステムを導入する場合は、事業拡大している状況だとより効果的です。こういった観点からも収支計画を設計する必要があります。

BSとPLで物事を語れるようになることは重要です。なぜならこれが経営者の共通言語だからです。極論を言うと、経営者は機械学習の精度は気にしません。BSとPLがどのように変化しうるのか、という絵が欲しいのです。経営者の欲する絵を持っていけるかどうか、そのための情報収集がプロトタイプ開発には求められます。

終わりに

面白かったら新刊買ってね。

--

--