本文へスキップ
SYRUP

AI活用イントロダクション

ビギナー
ロードマップ
AI活用

概要

AIの仕組みから主要モデルの比較、テキスト・画像・音声・音楽・映像・3D・センシングまで、9つの分野を横断するAI活用の概要版です。自分が楽しめそうな分野を見つけるための入門ガイドです。

詳細版はこちら

用語集はこちら

アウトプット

1 / ↗ PDF

内容

イントロダクション

  • 今日見るのは、AI活用ロードマップの全体像
  • 「AIってそもそも何?」から「どう使い分けるか」まで順番に見ていく
  • ゴールは、自分が楽しめそうな分野を1つ見つけ、さらに深堀りしてみること
流れ
  1. AIのしくみと発展
  2. 主要モデルの紹介と比較
  3. テキストAI
  4. 画像AI
  5. 音声AI
  6. 音楽・サウンドAI
  7. 映像AI
  8. 3D・空間AI
  9. 身体認識・センシングAI

AIのしくみと発展

AIって、どうやって動いているの?

  • AIは大量のデータから「パターン」を学習する仕組み
    • 機械学習 → 深層学習 → 生成AI、と進化してきた
  • 深層学習(ディープラーニング)とは
    • 人間の脳の神経回路を模した「ニューラルネットワーク」を多層に重ねた仕組み
    • 層を深くすることで、画像・音声・言語などの複雑なパターンを自動で学習できる
  • 生成AIの核心は Transformer(2017年〜)
    • Googleが提案したアーキテクチャ
    • Transformerは **Attention(注意機構)**を使い、文章全体の単語間の関係を一気に並列計算できる
    • 入力→確率で次の単語の予測を繰り返す

機械学習 深層学習 ニューラルネットワーク Transformer 生成AI

最近のAIの発展

  • 2022年末 ChatGPT登場で、誰でもAIと会話できる時代に
  • LLM(大規模言語モデル)が急速に進化
    • GPT-3 → GPT-4 → GPT-4o
    • Claude 1 → 2 → 3 → 4
    • Gemini、Llama、DeepSeek など競争が激化
  • テキストだけでなく、画像・音声・動画まで扱えるマルチモーダル
  • AIの能力が「1年で数年分」進化している

LLM GPT Claude Gemini DeepSeek マルチモーダル


主要モデルの紹介と比較

どのAIを使えばいい?

  • AIモデルに絶対的な正解はない
    • 用途・コスト・状況で選ぶ
  • 選ぶときの3つの軸
    • 用途:文章を書く / コードを作る / 画像を生成する
    • コスト:無料 / 有料プラン / ローカルで動かす
    • データの扱い:クラウドに送っていいか / 社内情報は? / 中国系 vs 米国系の違い
  • 「とりあえず全部試してみる」が最速の近道
    • 毎月のように新モデルが発表され優劣が変わる
    • 無料枠で機能を試してみることが大事

主要モデルの開発元紹介

  • OpenAI(🇺🇸):生成AIブームの火付け役。GPT-4以降、画像・音声・コード実行まで統合した汎用AIへ進化
  • Anthropic(🇺🇸):AI安全性研究を最優先。Claudeシリーズは長文理解・論理推論に強く、企業向け利用を重視
  • Google(🇺🇸):検索・クラウドとの統合が強み。研究論文量・計算資源ともにトップクラス
  • Moonshot AI / Kimi(🇨🇳):超長コンテキストウィンドウに特化。書籍1冊や大量のPDFを一括処理できる
  • DeepSeek(🇨🇳):圧倒的なコスパでGPT-4レベルのモデルをオープンソース公開
  • 智谱AI / GLM(🇨🇳):中国語処理と学術応用に強み
  • Alibaba / Qwen(🇨🇳):多言語・マルチモーダル対応が広く、オープンソース版も充実

OpenAI Anthropic Google DeepSeek Kimi GLM Qwen

主要モデル比較表

  • GPT-5.4 / GPT-5.5(OpenAI):汎用フラッグシップ〜最上位。創造的な文章・画像理解・複雑な推論に強い
  • GPT mini(OpenAI):コスパ重視の軽量版。日常タスク・大量処理に向く
  • Codex(OpenAI):コード生成・補完・デバッグに特化した開発者向けモデル
  • Claude Haiku / Sonnet / Opus(Anthropic):軽量〜最高性能まで3段階。Sonnetがバランス型で総合力最強
  • Gemini Flash / Pro / Ultra(Google):高速〜最上位まで3段階。マルチモーダル処理と長コンテキストに強み
  • Kimi(Moonshot AI):超長コンテキスト特化。長大なPDFや論文の一括読み込みが得意
  • DeepSeek:コード・数学・推論が高性能。OSS公開でローカル実行も可能

GPT Claude Gemini Kimi DeepSeek GLM Qwen


テキストAI

  • LLMがテキスト入出力を担う、AIの中心的な分野
  • 例①:チャットボット
    • ユーザーの質問に応答(ChatGPT, Claude, Gemini)
  • 例②:コード生成・補助
    • コードを書く / レビューする(GitHub Copilot, Cursor, Claude Code, Codex)
  • 例③:文章要約・翻訳
    • 長文レポートの要点抽出、多言語変換
  • 例④:RAG(検索拡張生成)
    • 社内ドキュメントや外部データを参照しながら回答を生成する仕組み

LLM プロンプト RAG GitHub Copilot Cursor


画像AI

  • 文章から画像を生成、または画像を認識・変換する分野
  • 拡散モデルという考え方を応用
    • 画像にノイズを少しずつ加えて「完全なランダムノイズ」にする過程を学習し、その逆順(ノイズ→画像)を再現することで新しい画像を生成する仕組み
  • 例①:Midjourney
    • プロンプトから高品質なビジュアルを生成
  • 例②:Stable Diffusion
    • オープンソース。LoRAでキャラクターをカスタマイズ可能
  • 例③:Adobe Firefly
    • 商用利用に安全な学習データで企業でも使いやすい

拡散モデル Midjourney Stable Diffusion LoRA img2img Adobe Firefly


音声AI

  • 音声合成(TTS)と音声認識(STT/ASR)が主な2軸
  • 例①:Whisper
    • OpenAI製の高精度音声認識。多言語対応でオープンソース
  • 例②:ElevenLabs
    • 感情豊かな音声合成・ボイスクローン。APIも提供
  • 例③:VOICEVOX
    • 日本語特化の無料音声合成。動画ナレーションに広く利用
  • 例④:RVC
    • 自分の声を別の話者スタイルにリアルタイム変換。配信・VTuber文化でニーズがある

TTS STT ASR Whisper ElevenLabs VOICEVOX ボイスクローン RVC


音楽・サウンドAI

  • テキストや設定から楽曲・効果音・歌声を生成する分野
  • 例①:Suno
    • プロンプトから歌詞付き楽曲を1クリックで生成
  • 例②:Udio
    • ジャンル・スタイルの細かい指定が得意な楽曲生成AI
  • 例③:VOCALOID / SynthV
    • AIを使った歌声合成。日本語表現に強み
  • 例④:AIVA
    • 映像・ゲーム向けBGM生成に特化したAI作曲ツール。商用利用ライセンスも整備されており実用しやすい

Suno Udio MusicGen VOCALOID SynthV AIVA


映像AI

  • テキストや画像から動画を生成、またはリアルタイム映像を加工する分野
  • 例①:Runway
    • img2videoやスタイル変換など映像制作ツールが充実
  • 例②:Kling
    • テキスト・画像から高品質な動画を生成できる中国発の映像AI
  • 例③:HeyGen
    • リップシンクでアバター動画を自動生成、多言語対応
  • 例④:DeepFake
    • 顔の入れ替えや音声・口の動きの合成。悪用リスクがあるため、見破る技術の研究も同時に進む

img2video Runway Kling HeyGen DeepFake


3D・空間AI

  • テキストや写真から3Dモデルを生成、または空間を再構築する分野
  • 例①:Tripo3D
    • テキスト・画像から3Dモデルを数秒で生成。API提供
  • 例②:Meshy
    • テキスト・画像から3Dモデルとテクスチャを同時生成。Tripo3Dと並ぶ代表サービス
  • 例③:Luma AI
    • 動画や写真からNeRFで3Dシーンを再構成
  • 例④:Polycam
    • スマートフォンで3Dスキャン。手軽に実物を3D化

NeRF 3D Gaussian Splatting Tripo3D Luma AI 点群 AR/MR


身体認識・センシングAI

  • カメラ等から人の骨格・顔・ジェスチャーを検出する分野
  • 例①:MediaPipe(Google)
    • ブラウザ上でも動く骨格推定・手のトラッキング
  • 例②:OpenPose
    • 高精度な全身推定ライブラリ。インタラクティブ作品に活用できる
  • 例③:TouchDesigner + センシング
    • 体の動きをリアルタイムで映像・音に変換するメディアアート制作
  • 例④:Rokoko
    • スーツ型センサーでモーションキャプチャ。ゲーム・アニメのキャラクター動作制作に活用

Pose Estimation MediaPipe OpenPose 顔認識 WiFiセンシング TouchDesigner


まとめ

どこか気になる分野がありましたか?

気になる分野やスキルがあったら、それを深堀りしてみて下さい。深堀りすることで、他のスキルへと繋がり、世界がさらに広がってゆきます。