生成AIとは

生成AIの画像

生成AI（または生成系AI）とは、「Generative AI：ジェネレーティブAI」とも呼ばれ、さまざまなコンテンツを生成できるAIのことです。

生成できる範囲はテキスト、画像、音声、音楽など多岐にわたります。

従来のAIと生成AIの主な違い

AIにおける生成AIの関係性

従来のAIと生成AIの主な違いは、「解析や判断を行う」ことに重点を置くか、「新しいものを創造する」ことに重点を置くかにあります。

例えば、画像生成では、単に既存の画像を再構成するだけでなく、完全に新しい画像を創出することができます。

生成AIの歴史

生成AIは比較的短い歴史を持っており、1960年代に初めてチャットボットの形で導入されました。
現在では、高品質のテキスト、画像、ビデオ、オーディオ、合成データを数秒で生成することができます。

しかし、生成AIが実際にリアルな画像やビデオ、オーディオを作成できるようになったのは、2014年に生成敵対ネットワーク（GAN）の概念が導入されてからです。

現在、生成AIはChatGPTやその派生形式の主要な構成要素となっています。

ここでは生成AIの概念が持ち出された1940年台から現在に焦点を当て、解説していきます。

生成AIの始まりと初期の段階(1950年代-1980年代)

生成AIの基礎は、1950年代に数学者アラン・チューリングとその仲間たちが行った初期のニューラルネットワーク研究に端を発しています。
ここでは、チューリングテストの概念も登場します。

このテストでは、人間の評価者が人間と機械とのテキストベースの会話を判断し、評価者が機械と人間を確実に区別できない場合、その機械はテストに合格するとされます。

The oldest person alive was born in 1907 which means that Alan Turing (1912) could be alive today which is truly insane.

In the lifespan of a *single* human!!, we went from no computers to LLMs, the Internet, ... pic.twitter.com/7HdpGYmJJj
— andrew gao (@itsandrewgao) May 26, 2024

1980年代に入ると、科学者たちはオートエンコーダーという新しい技術を開発しました。

オートエンコーダーは、画像や音声などのデータの特徴を捉え、その情報を圧縮した上で再構築することができるニューラルネットワークモデルです。
入力データを内部で圧縮し、その圧縮された表現から元のデータを復元するという仕組みです。

このオートエンコーダー技術は、データ圧縮、ノイズ除去、画像の欠損部分の補完など、様々な用途に活用できることから注目を集めました。

敵対的生成ネットワーク（GAN）の登場（2014年）

2014年、生成AI分野で画期的な進歩がありました。
それは、イアン・グッドフェローとその研究チームによって開発された、生成器と識別器が競い合う新しい手法、「敵対的生成ネットワーク（GAN）」です。

この手法では、生成器がまったく新しいデータを生成し、識別器がそのデータが本物かどうかを判断します。
生成器はより本物に近い画像を作ろうと頑張り、識別器は本物と偽物を上手に見分けようと努力します。

この競争を繰り返す事で、GANはどんどん高度な画像を作ったり、真偽を見分けたりすることができるようになりました。

Computer generated faces using generative adversarial network / progressive growing technique from Nvidia. Trained on 50,000 images from a photobooth at ZKM Center for Art and Media by @highqualitysh1t pic.twitter.com/RO1EG6ha8S
— Spelling Mistakes Cost Lives (Bsky: @darrencullen) (@darren_cullen) November 7, 2018

このように、GANによって、リアルな画像生成だけでなく、ビデオゲームの環境生成や動画の生成など、クリエイティブ分野でも幅広く活用されるようになりました。

この画期的な手法により、生成AIの活用範囲が大きく広がり、さまざまな分野で革新的な成果がもたらされるようになったのです。

Transformer(トランスフォーマー)と言語モデルの台頭(2017~)

トランスフォーマーモデルは、自己注意機構（self-attention mechanism）を使用して、入力されたテキストの中の各単語がどのように相互に関連しているかを捉えます。(例えば、犬🐶＝ワンワン、ひよこ🐣＝ぴよぴよが挙げられますね！)

文章の中の単語一つ一つがどう結びついているかを調べることで、全体の意味をよく理解しようとする流れを「自己注意機構」といいます。

自己注意機構を使うと、トランスフォーマーはたくさんの単語の関連を一度にチェックできるので、より効率的かつ効果的に言語データを扱うことが可能になりました。

Transformerの応用と影響

【大規模言語モデルの開発】

トランスフォーマーの登場後、OpenAIのGPT（2022）、GoogleのBERT(2018)など、数々の大規模言語モデルが開発されました。
これらのモデルは、文脈をより深く理解し、より自然なテキスト生成や高度な言語推論を行うことが可能になりました。

【応用分野の拡大】

トランスフォーマーモデルでできること（出典:NVIDIA)

トランスフォーマーベースのモデルは、チャットボット、自動翻訳、要約、情報抽出、感情分析、さらには創作活動に至るまで、広範囲に活用されています。
これらのモデルは、自然言語処理の精度と多様性を大幅に向上させました。

【関連記事】

Transformerとは？自己回帰モデルの概要やBERTとの違いをわかりやすく解説 | AI総合研究所

AIと自然言語処理（NLP）に革命をもたらしたトランスフォーマーモデルの基本から応用例、その仕組みと開発モデルについてわかりやすく解説します。

https://www.ai-souken.com/article/transformer-overview

拡散モデルとその進化（2020~）

拡散モデル（Diffusion model）とは、画像データを生成するAIサービスで広く利用されている生成AIモデルの一種です。
この手法は、2015年に発表された論文「Deep Unsupervised Learning using Nonequilibrium Thermodynamics」にて初めて提案されました。

2020年には「Denoising Diffusion Probabilistic Models（DDPM）」と呼ばれる新しいタイプの拡散モデルを開発しました。

ノイズから画像を生成（出典:DDPM

このプロセスでは、元の清潔なデータに段階的にノイズを加え、そのノイズを時間をかけて取り除くことで元のデータを復元します。
この原理をデータ生成に応用することで、非常にリアルで詳細な画像や音声を生成できます。

拡散モデルの応用例

DDPMの成功以降、画像生成だけでなく、音声生成や医療画像の改善など、さまざまな分野での応用が進められています。

画像生成

古の大戦で文明が後退した後の世界で、所々に大戦中のオーバーテクノロジーな残骸がボロボロの状態で落ちてるとかいいよね。#DALLE3 pic.twitter.com/qCI0htkXxb
— 蟹炒飯 (@shineshine_musk) May 29, 2024

DDPMは、アート作品の生成、顔画像の生成、または医療画像の再構築など、さまざまな画像生成タスクに応用されています。特にリアルな画像を生成する能力が評価されています。

代表的な例として、DALLE-3やMidjourneyが挙げられます。

【関連記事】
DALL-E3の使い方や料金、無料で使う方法を紹介！商用利用も解説

Midjourneyとは？初心者もプロも魅了する画像生成AIを解説

動画生成

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

動画生成AIは、テキストや画像、音源データから新たな動画コンテンツを自動生成する技術です。
この技術により、従来に比べ格段に短時間かつ低コストで動画制作できるようになりました。

代表的なサービスとして、Sora(OpenAI),Heygen,Runwayが挙げられます。

【関連記事】
OpenAIのSoraとは？いつから使える？その使い方や料金体系を解説！

Heygenとは？使い方や料金、日本語利用・商用利用の可否を解説

音声生成

Presenting "Digital Wasteland" an AI meets metal song and music video on technological doom. All AI generated using some amazing tools. Song, lyrics, stills , 4K version as well as more info in 🧵 WARNING: Strobe lighting VFX are used in the video. Viewer discretion is advised. pic.twitter.com/i2fdzMZnQC
— Ionut «John» Burchi (@burconsult) February 26, 2024

音声合成においてもDDPMが用いられ、自然な発話や音楽の生成が可能になっています。
これにより、バーチャルアシスタントやオーディオブックのナレーションなど、リアルな音声が求められる場面での使用が進んでいます。

【関連記事】
Suno AIとは？無料のAI音楽生成サービスの使い方、料金を徹底解説

生成AIの現状と未来の展望

生成AIの統計見通し

生成AIブームのきっかけとなった対話型AI「ChatGPT」公開されてから2年が過ぎました。

最後に、このセクションでは進化を続ける生成AIはどう発展し、どこへ向かっているのか、一緒に考えていきたいと思います。

生成AIの市場規模

2022年の世界の生成AI市場は107.9億米ドルと評価され、2032年までには年平均成長率27.02%で成長し、約1180.6億米ドルに達すると予測されています。
今後も生成AIに対する需要は高まる事は確かです。

生成AIの影響が大きい分野 (出典:Precedence Statistics)

また、生成AIは、さまざまな業界や一般の人々の生活に影響を与えています。
特に、メディア・エンターテインメント、医療・ヘルスケア、ビジネス・金融サービス、IT・通信、自動車・運輸などの分野で活用が広がっています。

更には、セキュリティ、航空宇宙、防衛などの小規模な分野にも影響を及ぼしつつあります。

2022年では、メディア・エンターテインメント分野が生成AI市場の34%以上のシェアを占め、15億ドル以上の収益をあげました。

各業界における生成AIの影響見通し

各業界における生成AIの影響見通し

生成AIは、メディア・エンターテイメント、医療・ヘルスケア、ビジネス・金融サービス、IT・通信、自動車・運輸など多岐にわたる業界で活用されています。

各分野での具体的な活用例を以下にまとめます。

業界	活用事例
メディア・エンターテインメント	広告キャンペーンの質向上、カスタマイズされたコンテンツ提供
医療・ヘルスケア	新薬・治療法の開発、医療画像解析、診断支援
ビジネス・金融サービス	金融データ解析、新サービス・製品開発、市場予測
IT・通信	通信サービスの最適化、IT運用自動化
自動車・運輸	自動運転の支援、物流の最適化
セキュリティ	詐欺検出、サイバーセキュリティ
航空宇宙	衛星画像解析、航空機の保守管理

まとめ

生成AIは、テキスト、画像、音声、音楽などの新しいコンテンツを生み出す能力で、多岐にわたる分野で注目されています。この記事を通じて、生成AIの理論的な基礎から実際の応用例に至るまでの発展を詳しく解説しました。生成AIの歴史は、初期のニューラルネットワーク研究から始まり、オートエンコーダー、敵対的生成ネットワーク（GAN）、そしてトランスフォーマーといった重要な技術的進歩を経て、今日に至っています。

今後、生成AIはメディア・エンターテイメントからヘルスケア、ビジネル、自動車産業に至るまで、さらに多くの分野での応用が期待されています。また、AI技術の進化は、新しい産業の創出や、既存の業務プロセスの大幅な改善をもたらす可能性を秘めています。
読者の皆さんにとってこの記事が、生成AIの可能性を理解し、これからの技術進化が私たちの生活や仕事にどのような影響を与えるかを考える機会となれば幸いです。