AI活用イントロダクション

海辺康志

26.5.16

ビギナー

ロードマップ

AI活用

概要

AIの仕組みから主要モデルの比較、テキスト・画像・音声・音楽・映像・3D・センシングまで、9つの分野を横断するAI活用の概要版です。自分が楽しめそうな分野を見つけるための入門ガイドです。

詳細版はこちら

用語集はこちら

アウトプット

1 / …↗ PDF

内容

イントロダクション

今日見るのは、AI活用ロードマップの全体像
「AIってそもそも何？」から「どう使い分けるか」まで順番に見ていく
ゴールは、自分が楽しめそうな分野を1つ見つけ、さらに深堀りしてみること

流れ

AIのしくみと発展
主要モデルの紹介と比較
テキストAI
画像AI
音声AI
音楽・サウンドAI
映像AI
3D・空間AI
身体認識・センシングAI

AIのしくみと発展

AIって、どうやって動いているの？

AIは大量のデータから「パターン」を学習する仕組み
- 機械学習 → 深層学習 → 生成AI、と進化してきた
深層学習（ディープラーニング）とは
- 人間の脳の神経回路を模した「ニューラルネットワーク」を多層に重ねた仕組み
- 層を深くすることで、画像・音声・言語などの複雑なパターンを自動で学習できる
生成AIの核心は Transformer（2017年〜）
- Googleが提案したアーキテクチャ
- Transformerは **Attention（注意機構）**を使い、文章全体の単語間の関係を一気に並列計算できる
- 入力→確率で次の単語の予測を繰り返す

機械学習 深層学習 ニューラルネットワーク Transformer 生成AI

主要モデルの紹介と比較

どのAIを使えばいい？

AIモデルに絶対的な正解はない
- 用途・コスト・状況で選ぶ
選ぶときの3つの軸
- 用途：文章を書く / コードを作る / 画像を生成する
- コスト：無料 / 有料プラン / ローカルで動かす
- データの扱い：クラウドに送っていいか / 社内情報は？ / 中国系 vs 米国系の違い
「とりあえず全部試してみる」が最速の近道
- 毎月のように新モデルが発表され優劣が変わる
- 無料枠で機能を試してみることが大事

主要モデルの開発元紹介

OpenAI（🇺🇸）：生成AIブームの火付け役。GPT-4以降、画像・音声・コード実行まで統合した汎用AIへ進化
Anthropic（🇺🇸）：AI安全性研究を最優先。Claudeシリーズは長文理解・論理推論に強く、企業向け利用を重視
Google（🇺🇸）：検索・クラウドとの統合が強み。研究論文量・計算資源ともにトップクラス
Moonshot AI / Kimi（🇨🇳）：超長コンテキストウィンドウに特化。書籍1冊や大量のPDFを一括処理できる
DeepSeek（🇨🇳）：圧倒的なコスパでGPT-4レベルのモデルをオープンソース公開
智谱AI / GLM（🇨🇳）：中国語処理と学術応用に強み
Alibaba / Qwen（🇨🇳）：多言語・マルチモーダル対応が広く、オープンソース版も充実

OpenAI Anthropic Google DeepSeek Kimi GLM Qwen

主要モデル比較表

GPT-5.4 / GPT-5.5（OpenAI）：汎用フラッグシップ〜最上位。創造的な文章・画像理解・複雑な推論に強い
GPT mini（OpenAI）：コスパ重視の軽量版。日常タスク・大量処理に向く
Codex（OpenAI）：コード生成・補完・デバッグに特化した開発者向けモデル
Claude Haiku / Sonnet / Opus（Anthropic）：軽量〜最高性能まで3段階。Sonnetがバランス型で総合力最強
Gemini Flash / Pro / Ultra（Google）：高速〜最上位まで3段階。マルチモーダル処理と長コンテキストに強み
Kimi（Moonshot AI）：超長コンテキスト特化。長大なPDFや論文の一括読み込みが得意
DeepSeek：コード・数学・推論が高性能。OSS公開でローカル実行も可能

GPT Claude Gemini Kimi DeepSeek GLM Qwen

テキストAI

LLMがテキスト入出力を担う、AIの中心的な分野
例①：チャットボット
- ユーザーの質問に応答（ChatGPT, Claude, Gemini）
例②：コード生成・補助
- コードを書く / レビューする（GitHub Copilot, Cursor, Claude Code, Codex）
例③：文章要約・翻訳
- 長文レポートの要点抽出、多言語変換
例④：RAG（検索拡張生成）
- 社内ドキュメントや外部データを参照しながら回答を生成する仕組み

LLM プロンプト RAG GitHub Copilot Cursor

画像AI

文章から画像を生成、または画像を認識・変換する分野
拡散モデルという考え方を応用
- 画像にノイズを少しずつ加えて「完全なランダムノイズ」にする過程を学習し、その逆順（ノイズ→画像）を再現することで新しい画像を生成する仕組み
例①：Midjourney
- プロンプトから高品質なビジュアルを生成
例②：Stable Diffusion
- オープンソース。LoRAでキャラクターをカスタマイズ可能
例③：Adobe Firefly
- 商用利用に安全な学習データで企業でも使いやすい

拡散モデル Midjourney Stable Diffusion LoRA img2img Adobe Firefly

音声AI

音声合成（TTS）と音声認識（STT/ASR）が主な2軸
例①：Whisper
- OpenAI製の高精度音声認識。多言語対応でオープンソース
例②：ElevenLabs
- 感情豊かな音声合成・ボイスクローン。APIも提供
例③：VOICEVOX
- 日本語特化の無料音声合成。動画ナレーションに広く利用
例④：RVC
- 自分の声を別の話者スタイルにリアルタイム変換。配信・VTuber文化でニーズがある

TTS STT ASR Whisper ElevenLabs VOICEVOX ボイスクローン RVC

音楽・サウンドAI

テキストや設定から楽曲・効果音・歌声を生成する分野
例①：Suno
- プロンプトから歌詞付き楽曲を1クリックで生成
例②：Udio
- ジャンル・スタイルの細かい指定が得意な楽曲生成AI
例③：VOCALOID / SynthV
- AIを使った歌声合成。日本語表現に強み
例④：AIVA
- 映像・ゲーム向けBGM生成に特化したAI作曲ツール。商用利用ライセンスも整備されており実用しやすい

Suno Udio MusicGen VOCALOID SynthV AIVA

映像AI

テキストや画像から動画を生成、またはリアルタイム映像を加工する分野
例①：Runway
- img2videoやスタイル変換など映像制作ツールが充実
例②：Kling
- テキスト・画像から高品質な動画を生成できる中国発の映像AI
例③：HeyGen
- リップシンクでアバター動画を自動生成、多言語対応
例④：DeepFake
- 顔の入れ替えや音声・口の動きの合成。悪用リスクがあるため、見破る技術の研究も同時に進む

img2video Runway Kling HeyGen DeepFake

3D・空間AI

テキストや写真から3Dモデルを生成、または空間を再構築する分野
例①：Tripo3D
- テキスト・画像から3Dモデルを数秒で生成。API提供
例②：Meshy
- テキスト・画像から3Dモデルとテクスチャを同時生成。Tripo3Dと並ぶ代表サービス
例③：Luma AI
- 動画や写真からNeRFで3Dシーンを再構成
例④：Polycam
- スマートフォンで3Dスキャン。手軽に実物を3D化

NeRF 3D Gaussian Splatting Tripo3D Luma AI 点群 AR/MR

身体認識・センシングAI

カメラ等から人の骨格・顔・ジェスチャーを検出する分野
例①：MediaPipe（Google）
- ブラウザ上でも動く骨格推定・手のトラッキング
例②：OpenPose
- 高精度な全身推定ライブラリ。インタラクティブ作品に活用できる
例③：TouchDesigner + センシング
- 体の動きをリアルタイムで映像・音に変換するメディアアート制作
例④：Rokoko
- スーツ型センサーでモーションキャプチャ。ゲーム・アニメのキャラクター動作制作に活用

Pose Estimation MediaPipe OpenPose 顔認識 WiFiセンシング TouchDesigner

まとめ

どこか気になる分野がありましたか？

気になる分野やスキルがあったら、それを深堀りしてみて下さい。深堀りすることで、他のスキルへと繋がり、世界がさらに広がってゆきます。

AI活用イントロダクション

概要

アウトプット

内容

イントロダクション

流れ

AIのしくみと発展

AIって、どうやって動いているの？

最近のAIの発展

主要モデルの紹介と比較

どのAIを使えばいい？

主要モデルの開発元紹介

主要モデル比較表

テキストAI

画像AI

音声AI

音楽・サウンドAI

映像AI

3D・空間AI

身体認識・センシングAI

まとめ

関連リンク

AI活用イントロダクション

概要

アウトプット

内容

イントロダクション

流れ

AIのしくみと発展

AIって、どうやって動いているの？

最近のAIの発展

主要モデルの紹介と比較

どのAIを使えばいい？

主要モデルの開発元紹介

主要モデル比較表

テキストAI

画像AI

音声AI

音楽・サウンドAI

映像AI

3D・空間AI

身体認識・センシングAI

まとめ

関連リンク

関連アウトプット