AI活用イントロダクション
26.5.16
ビギナー
ロードマップ
AI活用
概要
アウトプット
1 / …↗ PDF
内容
イントロダクション
- 今日見るのは、AI活用ロードマップの全体像
- 「AIってそもそも何?」から「どう使い分けるか」まで順番に見ていく
- ゴールは、自分が楽しめそうな分野を1つ見つけ、さらに深堀りしてみること
流れ
- AIのしくみと発展
- 主要モデルの紹介と比較
- テキストAI
- 画像AI
- 音声AI
- 音楽・サウンドAI
- 映像AI
- 3D・空間AI
- 身体認識・センシングAI
AIのしくみと発展
AIって、どうやって動いているの?
- AIは大量のデータから「パターン」を学習する仕組み
- 機械学習 → 深層学習 → 生成AI、と進化してきた
- 深層学習(ディープラーニング)とは
- 人間の脳の神経回路を模した「ニューラルネットワーク」を多層に重ねた仕組み
- 層を深くすることで、画像・音声・言語などの複雑なパターンを自動で学習できる
- 生成AIの核心は Transformer(2017年〜)
- Googleが提案したアーキテクチャ
- Transformerは **Attention(注意機構)**を使い、文章全体の単語間の関係を一気に並列計算できる
- 入力→確率で次の単語の予測を繰り返す
機械学習 深層学習 ニューラルネットワーク Transformer 生成AI
最近のAIの発展
- 2022年末 ChatGPT登場で、誰でもAIと会話できる時代に
- LLM(大規模言語モデル)が急速に進化
- GPT-3 → GPT-4 → GPT-4o
- Claude 1 → 2 → 3 → 4
- Gemini、Llama、DeepSeek など競争が激化
- テキストだけでなく、画像・音声・動画まで扱えるマルチモーダルへ
- AIの能力が「1年で数年分」進化している
LLM GPT Claude Gemini DeepSeek マルチモーダル
主要モデルの紹介と比較
どのAIを使えばいい?
- AIモデルに絶対的な正解はない
- 用途・コスト・状況で選ぶ
- 選ぶときの3つの軸
- 用途:文章を書く / コードを作る / 画像を生成する
- コスト:無料 / 有料プラン / ローカルで動かす
- データの扱い:クラウドに送っていいか / 社内情報は? / 中国系 vs 米国系の違い
- 「とりあえず全部試してみる」が最速の近道
- 毎月のように新モデルが発表され優劣が変わる
- 無料枠で機能を試してみることが大事
主要モデルの開発元紹介
- OpenAI(🇺🇸):生成AIブームの火付け役。GPT-4以降、画像・音声・コード実行まで統合した汎用AIへ進化
- Anthropic(🇺🇸):AI安全性研究を最優先。Claudeシリーズは長文理解・論理推論に強く、企業向け利用を重視
- Google(🇺🇸):検索・クラウドとの統合が強み。研究論文量・計算資源ともにトップクラス
- Moonshot AI / Kimi(🇨🇳):超長コンテキストウィンドウに特化。書籍1冊や大量のPDFを一括処理できる
- DeepSeek(🇨🇳):圧倒的なコスパでGPT-4レベルのモデルをオープンソース公開
- 智谱AI / GLM(🇨🇳):中国語処理と学術応用に強み
- Alibaba / Qwen(🇨🇳):多言語・マルチモーダル対応が広く、オープンソース版も充実
OpenAI Anthropic Google DeepSeek Kimi GLM Qwen
主要モデル比較表
- GPT-5.4 / GPT-5.5(OpenAI):汎用フラッグシップ〜最上位。創造的な文章・画像理解・複雑な推論に強い
- GPT mini(OpenAI):コスパ重視の軽量版。日常タスク・大量処理に向く
- Codex(OpenAI):コード生成・補完・デバッグに特化した開発者向けモデル
- Claude Haiku / Sonnet / Opus(Anthropic):軽量〜最高性能まで3段階。Sonnetがバランス型で総合力最強
- Gemini Flash / Pro / Ultra(Google):高速〜最上位まで3段階。マルチモーダル処理と長コンテキストに強み
- Kimi(Moonshot AI):超長コンテキスト特化。長大なPDFや論文の一括読み込みが得意
- DeepSeek:コード・数学・推論が高性能。OSS公開でローカル実行も可能
GPT Claude Gemini Kimi DeepSeek GLM Qwen
テキストAI
- LLMがテキスト入出力を担う、AIの中心的な分野
- 例①:チャットボット
- ユーザーの質問に応答(ChatGPT, Claude, Gemini)
- 例②:コード生成・補助
- コードを書く / レビューする(GitHub Copilot, Cursor, Claude Code, Codex)
- 例③:文章要約・翻訳
- 長文レポートの要点抽出、多言語変換
- 例④:RAG(検索拡張生成)
- 社内ドキュメントや外部データを参照しながら回答を生成する仕組み
LLM プロンプト RAG GitHub Copilot Cursor
画像AI
- 文章から画像を生成、または画像を認識・変換する分野
- 拡散モデルという考え方を応用
- 画像にノイズを少しずつ加えて「完全なランダムノイズ」にする過程を学習し、その逆順(ノイズ→画像)を再現することで新しい画像を生成する仕組み
- 例①:Midjourney
- プロンプトから高品質なビジュアルを生成
- 例②:Stable Diffusion
- オープンソース。LoRAでキャラクターをカスタマイズ可能
- 例③:Adobe Firefly
- 商用利用に安全な学習データで企業でも使いやすい
拡散モデル Midjourney Stable Diffusion LoRA img2img Adobe Firefly
音声AI
- 音声合成(TTS)と音声認識(STT/ASR)が主な2軸
- 例①:Whisper
- OpenAI製の高精度音声認識。多言語対応でオープンソース
- 例②:ElevenLabs
- 感情豊かな音声合成・ボイスクローン。APIも提供
- 例③:VOICEVOX
- 日本語特化の無料音声合成。動画ナレーションに広く利用
- 例④:RVC
- 自分の声を別の話者スタイルにリアルタイム変換。配信・VTuber文化でニーズがある
TTS STT ASR Whisper ElevenLabs VOICEVOX ボイスクローン RVC
音楽・サウンドAI
- テキストや設定から楽曲・効果音・歌声を生成する分野
- 例①:Suno
- プロンプトから歌詞付き楽曲を1クリックで生成
- 例②:Udio
- ジャンル・スタイルの細かい指定が得意な楽曲生成AI
- 例③:VOCALOID / SynthV
- AIを使った歌声合成。日本語表現に強み
- 例④:AIVA
- 映像・ゲーム向けBGM生成に特化したAI作曲ツール。商用利用ライセンスも整備されており実用しやすい
Suno Udio MusicGen VOCALOID SynthV AIVA
映像AI
- テキストや画像から動画を生成、またはリアルタイム映像を加工する分野
- 例①:Runway
- img2videoやスタイル変換など映像制作ツールが充実
- 例②:Kling
- テキスト・画像から高品質な動画を生成できる中国発の映像AI
- 例③:HeyGen
- リップシンクでアバター動画を自動生成、多言語対応
- 例④:DeepFake
- 顔の入れ替えや音声・口の動きの合成。悪用リスクがあるため、見破る技術の研究も同時に進む
img2video Runway Kling HeyGen DeepFake
3D・空間AI
- テキストや写真から3Dモデルを生成、または空間を再構築する分野
- 例①:Tripo3D
- テキスト・画像から3Dモデルを数秒で生成。API提供
- 例②:Meshy
- テキスト・画像から3Dモデルとテクスチャを同時生成。Tripo3Dと並ぶ代表サービス
- 例③:Luma AI
- 動画や写真からNeRFで3Dシーンを再構成
- 例④:Polycam
- スマートフォンで3Dスキャン。手軽に実物を3D化
NeRF 3D Gaussian Splatting Tripo3D Luma AI 点群 AR/MR
身体認識・センシングAI
- カメラ等から人の骨格・顔・ジェスチャーを検出する分野
- 例①:MediaPipe(Google)
- ブラウザ上でも動く骨格推定・手のトラッキング
- 例②:OpenPose
- 高精度な全身推定ライブラリ。インタラクティブ作品に活用できる
- 例③:TouchDesigner + センシング
- 体の動きをリアルタイムで映像・音に変換するメディアアート制作
- 例④:Rokoko
- スーツ型センサーでモーションキャプチャ。ゲーム・アニメのキャラクター動作制作に活用
Pose Estimation MediaPipe OpenPose 顔認識 WiFiセンシング TouchDesigner
まとめ
どこか気になる分野がありましたか?
気になる分野やスキルがあったら、それを深堀りしてみて下さい。深堀りすることで、他のスキルへと繋がり、世界がさらに広がってゆきます。