2023.04.17
ChatGPTがもたらす未来の変化
【第1回】人工知能/大規模言語モデルの発展と社会への影響
佐々木 新 星野 隆人
登場以来、さまざまな議論が繰り広げられているChatGPT。本稿読者の中には、 ChatGPTを代表とする大規模言語モデル(LLM:Large Language Model)を、簡単に答えを探すことができるWebブラウザーのように、無料で万能なツールだと認識している方もいるのではないだろうか?
LLMはテキストに含まれる情報を基にした感情分析など、さまざまな自然言語処理(NLP:Natural Language Processing)に適応可能であり、大きな可能性を秘めている。今後、ビジネスでの利用が進展することで、インターネットが登場した時のように、社会や価値観を一変させるかもしれない。
一方で、実際にビジネスや組織で活用する際には、コスト面をはじめ多くの課題や懸念点が存在することを知っておく必要がある。今回はビジネスでLLM活用を検討するにあたり、理解すべき背景や、LLMのもつポテンシャルとそれに伴う現実的な課題、懸念点について、2回にわたり解説していく。
LLMの進展と現在地
ChatGPTをはじめとするLLM は、自然言語処理の分野で急速に進化をしている。
ChatGPTを提供するOpenAIは、人類全体に利益をもたらす友好的な人工知能(AI)の普及・発展を目指し、イーロン・マスク氏(テスラCEO)などによって2015年に設立されたAI研究所である。2018年にOpenAIが初代GPTを発表して以降、BERT(Google)、T5(Google)、そしてRoBERTa(Facebook※現Meta)と次々に新たなLLMが登場。この他にもプラットフォーマーやビジネスSaaS企業などが市場投入を発表している。
これらLLMは主に、深層学習モデル「Transformer(トランスフォーマー)」をベースに、大量のテキストデータを学習することで、より高度な自然言語理解(NLU)と自然言語生成(NLG)能力を持つ。ここで、それぞれの基礎的な情報について簡単に解説したい。
1. Transformerの技術的特徴
Transformerは、2017年にAshish Vaswani氏などによって提唱された[1]。このアーキテクチャーは自己注意メカニズムを用いて、単語間の関係を捉えることができる点が特徴だ。また、並列計算が容易であるため、従来のリカレントニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)と比較して、効率的に大規模なモデルを学習させることができる。Transformerの登場により、後述する学習モデルへの適応も含め、自然言語処理においては学習の速度を飛躍的に向上させることが可能になった。
2. 自然言語理解(NLU)と自然言語生成(NLG)
LLMを理解する上では、自然言語理解と自然言語生成に関しての基礎知識が必要である。自然言語理解は、機械が人間の言語を理解し、その意味を把握する能力を指す。一方、自然言語生成は、機械が人間の理解できる形で情報を伝える能力を指す。LLMは、自然言語理解と自然言語生成の両方において高いパフォーマンスを発揮し、質問応答、機械翻訳、文章生成、要約など、幅広いタスクで活用されている。
3. 3つの学習:ゼロショット・ワンショット・フューショット学習
AIの自然言語学習においては、大別すると3つの学習モデルが存在する。ゼロショット学習は、モデルが事前学習データを活用し、未知のタスクを解決する能力を指す。ワンショット学習は、モデルが1つの例を参照して、新しいタスクを解決する能力を指す。フューショット学習は、モデルが限られた数の例を参照して、新しいタスクを効果的に解決する能力を指す。LLMは、これらの学習方法を利用し、さまざまなタスクに対応できる柔軟性を持つ。特に、GPTシリーズはゼロショット学習に優れており、少ないデータで効果的な学習を可能としている。
LLMの課題
LLMは自然言語処理の分野で革新的な成果を生み出しており、現在さまざまなアプリケーションに応用されている。しかし、いくつかの課題も存在している。
データバイアス
LLMは、学習データセットに含まれるバイアスを取り込むことがある。そのため、まれに不適切な言動や差別的な表現が生成されることがある。この問題に対処するため、データのクレンジングやモデルの改善が求められ、各社とも現在研究を進めている。
コンピューティングリソース
一定の領域の学習を強化し、回答の精度向上を目指すLLMのAIエンジンの強化を行う場合、大量のコンピューティングリソースが必要となる。このため、現状、研究や開発に必要なリソースを獲得できるのは一部の大企業や研究機関に限定される可能性が高い。ただしGPU(Graphics Processing Unit)を多量に用いずCPU(Central Processing Unit)で計算補完をするモデルも出現し、今後リソースに関する壁も低くなる可能性がある。
汎用性と特化性のトレードオフ
LLMは、多くのタスクに対応できる汎用性を持っているが、特定のタスクに特化したモデルに比べて、パフォーマンスが低い場合がある(冗長な文章回答が発生、パターン化した業務処理などスピードで劣後など)。この問題を解決するために、タスク特化型のモデルや、モデルの転移学習が研究されている。
これらの課題に対処しながら、LLMの技術を引き続き進化させていくため、より効果的で安全なAIアプリケーションの実現に向けた研究が進められている。
LLMが実現する新たな世界
最先端の技術であるLLMは、ChatGPTをはじめとした画期的な開発によって、私たちの生活に新たな可能性をもたらしている。例えば動画の内容を10秒で理解できるようになるなど、文章生成の枠を超えた多様なユースケースが登場し、これまでの常識を覆すイノベーションが期待されている。新時代の幕開けを感じさせるLLMの進化は、私たちの未来をどのように変えるのだろうか。その展望を探ることが重要である。
1. LLMの進化と次世代モデル
LLMの進化は、今後も続くことが予測されている。次世代のLLMは、より高度な自然言語理解と自然言語生成能力を持ち、さまざまなタスクへの適応性が向上する。また、学習データのバイアスや不適切な生成物への対策が強化され、より安全で信頼性の高いモデルが登場することが期待されている。
2. マルチモーダルAIの発展(テキスト、画像、音声、動画)
AI技術は、テキストだけでなく、画像、音声、動画など、複数種のデータを組み合わせて処理するマルチモーダルの方向へ発展している。このようなマルチモーダルAIは、異なるデータタイプ間の相互作用や情報の融合が可能となり、より豊かな情報処理や表現が実現される。
すでに画像生成ツール「DALL·E」や音声認識モデル「Whisper」などを組み合わせて、簡単な手書きイラストの読み込みや完成イメージを伝えるだけで自動的に動画やWebサイトを作成するサービスも進展している。
3. 時間と空間を短縮する情報処理
AIの発展により、情報処理の時間と空間が大幅に短縮されることが予測される。例えば、高度な動画解析技術によって、動画の内容を短時間で理解し、要約や検索が容易になると考えられる。これにより、情報の取得や共有が効率化され、人々の生活やビジネスが大きく変革していく。すでに動画の内容を100文字、10秒程度といった任意の文字数や秒数を指定して要約するようなサービスも出現してきている。
4. AIと人間の協働
技術の発展とともに、AIと人間の協働がますます重要になっていく。AIは、人間の知識や判断力を補完し、問題解決における圧倒的大量かつ高速な処理能力と、漏れなく判断基準を満たす正確性を発揮することができる。一方、人間は、AIの回答に対して倫理的な視点や情緒的な要素を考慮することができる。このような協働により、より効果的な意思決定やイノベーションが実現されるであろう。AR・VRなどでも協働が進み、音声や参考動画をもとに仮想現実空間での利用が促進されることが予想される。すでに保守点検などの静的マニュアルを音声、画像と組み合わせて利用するなどの動きができてきている。
5. 新しいビジネスモデルと産業革新
AI技術の発展は、新しいビジネスモデルや産業革新を促進する。例えば、個別化されたマーケティング戦略や効率的なサプライチェーン管理が可能になり、競争力の向上につながる。また、新たなサービスやプロダクトが登場し、従来の業界構造が変化することが予測される。
6. LLMの先にある「汎用AI(AGI)」の展望
AGIは、人間のような知能を持ち、幅広いタスクをこなすことができるAIの形態だ。AGIの登場により、従来の専門的なAIシステムを超えた、より革新的で汎用性の高い技術が実現される。これにより、自律的な意思決定や問題解決が可能となる。また、AGIは人間との協働を深めることで、未知の課題や複雑な問題に対処する能力の向上が期待される。しかし、AGIの実現には倫理的、技術的、社会的な課題が伴い、適切なガバナンスや制度設計が求められる。
AIは、教育、医療、交通、エネルギーなどの社会的課題に対する解決策を提供する可能性がある。これらの分野での技術革新は、社会全体の持続可能性や福祉の向上に寄与するであろう。特に、AGIの登場により、人間のような知能を持つ機械がさまざまなタスクをこなすことができ、これまでにない革新的な解決策が提案されることなどへの期待が高い。また、AI技術の動向を予測することで、各事業者は技術の発展がもたらす可能性やチャンスを理解し、適切な対応や戦略を立てることができる。今後の事業戦略には欠かせない技術の1つであろう。
LLM活用におけるコスト面の検討
LLMは、ChatGPTなどの技術を通じて、企業や組織に新たな可能性を提供する。しかし、それらの技術を無料で手軽に利用できるわけではなく、実際の導入にはコスト面での検討が必要だ。以下、主要なコスト要因を解説する。
1. トークン数での従量課金によるAPI利用料が高額になる可能性
ChatGPTは現在、無料で一部機能を一般に解放しているが、企業が商用利用する場合は有料での利用となる。特にAPI接続による利用が一般的になる。
LLMのAPIは、トークン数に応じて課金されることがスタンダードになりつつある。トークン数とは、言語モデルがテキストを分析する際の単位だ。多くのリクエストや長い文章を生成する場合、API利用料が高額になる可能性がある。そのため、予算管理やリクエスト数の最適化が重要となる。
図:LLMを利用する際のAPI連携イメージ
2. ファインチューニングの必要性
一般的なLLMは、幅広いタスクに対応できるように設計されているが、特定の業界や専門分野に対応するには、ファインチューニングが必要となる場合がある。ファインチューニングとは、モデルを特定のタスクやデータセットに適応させるための追加学習プロセスのことである。
3. ファインチューニングモデルのAPI利用料は高額となる
ファインチューニング済みのモデルは、より高い精度やパフォーマンスを提供することが期待されるが、それに伴ってAPI利用料が高額になることがある。導入時には、ファインチューニングモデルの利用価値とコストバランスを検討する必要がある。
4. その他コスト面での懸念点
LLMの導入には、他にもコスト面での懸念点が存在する。例えば、専門的な知識を持つデータサイエンティストや開発者の人件費、独自のインフラやツールの開発・維持費などが挙げられる。常にアップデートされるLLMに対応するためには、そのベネフィットの享受に対する相応のコストが必要である。
表:【参考】OpenAIのLLM各ベースモデル(エンジン)とファインチューニングコスト
総じて、自社の運用に適合させ、正確な回答を得ていくための活用では、コスト面でさまざまな検討が必要だ。無料で手軽に使えるものではないことを理解し、コスト要因を慎重に検討した上で、最適な導入戦略を立てることが求められる。企業や組織は、自身のニーズや予算に合わせて、LLMの活用方法や範囲を選択することが重要である。
活用検討を進めるに際しては、導入初期では無料プランや低額プランを活用してLLMの効果を評価し、適切な調整や最適化を進め、その後、より高度なファインチューニングやプレミアムプランへの移行を検討することが望ましい。利用用途、利用者、利用従量などを事前にシミュレーションをし、導入検討を図ることが重要だ。
また、コスト削減のために、他の企業や組織との協力や共同開発を検討することも一つの選択肢である。共同でファインチューニングやインフラ開発を行うことで、費用負担を軽減できる可能性がある。
まとめ
LLMは非常に強力なツールであり、多くの企業や組織に価値をもたらす可能性は大きい。LLMの導入に際しては、その技術的限界や倫理的問題も考慮することが重要だ。不正確な情報や偏見が含まれる可能性を理解し、適切な監視や対策を講じることで、LLMをより安全かつ効果的に活用する必要がある。また、ビジネスにおいては無料で手軽には使えない現実を理解することが重要である。コスト面での検討を行い、最適な導入戦略を立てることで、持続可能な形でのLLMの活用が可能となる。
第2回では、LLMのなかでも飛躍的に進歩したChatGPTについて解説する。
- [1] Neural Information Processing Systems(2017), “Attention Is All You Need”, https://arxiv.org/abs/1706.03762(参照2023年3月29日)
- [2] OpenAI(2023), “OpenAI API”, https://openai.com/blog/openai-api(参照2023年3月29日)