AI活用ロードマップ
26.5.16
ロードマップ
AI活用
概要
ダウンロード
内容
AIの基礎理解
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| AIの概要 | AIの種類 | 機械学習、深層学習、生成AIなどAIの分類とそれぞれの特徴を理解する | 機械学習 深層学習 生成AI |
| できること・できないこと | AIが得意なことと苦手なこと、現時点での限界を整理する | ハルシネーション | |
| 生成AIの仕組み | 生成AIがどのように出力を生み出すかの基礎的な仕組みを理解する | Transformer Attention 次単語予測 | |
| 各モダリティの位置づけ | テキスト・画像・音声・映像・身体認識それぞれの概要と得意領域、およびこれらを複合的に扱うマルチモーダルAIについて理解する | GPT-4o Claude Gemini マルチモーダル | |
| AIの使い方の分類 | ツールとして使う・APIで組み込む・モデルをカスタマイズするという3つの活用レイヤーを理解し、自分の目的に合った学習パスを選ぶ | ツール利用 API連携 モデルカスタマイズ | |
| 主要モデルの選び方 | 用途・コスト・データの扱いという3つの軸でモデルを選ぶ視点を理解する | GPT Claude Gemini Kimi DeepSeek | |
| 主要ベンダーの特徴 | OpenAI、Anthropic、Google、中国系各社の特徴と立ち位置を整理する | OpenAI Anthropic Google Kimi DeepSeek GLM Qwen | |
| 用語・概念整理 | 基本用語の理解 | プロンプト、トークン、モデル、APIなどAI活用に必要な基本用語を理解する | プロンプト トークン API |
| 倫理・影響 | 著作権・ライセンス・利用規約 | AI生成物の著作権、学習データのライセンス、各AIサービスの利用規約を確認し、適切に利用する | クリエイティブコモンズ |
| バイアス・フェイク | AIの出力に偏りや虚偽が含まれる可能性と、その影響を理解する | ハルシネーション ディープフェイク | |
| 情報漏洩・セキュリティ | AIサービスに入力した情報の扱いや、セキュリティ上の注意点を理解する |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| ChatGPT | OpenAIが提供する対話型生成AIサービス。テキスト生成、要約、翻訳など幅広い用途で利用される |
| Claude | Anthropicが提供する対話型生成AI。長文の理解や論理的推論に強みを持つ |
| Gemini | Googleが提供するマルチモーダル生成AI。テキスト・画像・音声などを統合的に扱える |
| Kimi | Moonshot AIが提供する対話型AI。長い文脈や大量PDFの読解に強みを持つ |
| DeepSeek | 中国発の生成AI。コード・数学・推論に強く、オープンモデル展開でも注目される |
| Perplexity | AI検索エンジン。情報検索と要約を組み合わせた回答を提供する |
データ・知識設計
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| データ収集・整理 | データの収集方法 | AIに学習させる・参照させるデータの集め方を理解する | Hugging Face Datasets Kaggle |
| データ形式の整理 | テキスト、画像、音声など各モダリティに適したデータ形式を整理する | JSON CSV Markdown | |
| 著作権・ライセンス確認 | 使用するデータの著作権やライセンスを確認し、適切に利用する | ||
| データ前処理 | クリーニング | ノイズや不要なデータを除去し、AIに適した形に整える | |
| 正規化・フォーマット変換 | データをAIが処理しやすい形式に変換する | ||
| アノテーション | データに意味づけやラベル付けを行い、AIの学習・認識精度を高める | Label Studio | |
| ナレッジベース設計 | RAG用データの構造化 | 検索・参照しやすい形にデータを構造化する | チャンク分割 ベクトル化 |
| メタデータ設計 | データの属性や分類情報を設計し、検索精度を高める | ||
| インデックス・検索設計 | ナレッジベースから必要な情報を効率的に検索・取得する仕組みを設計する | ベクトル検索 セマンティック検索 Chroma Pinecone | |
| コンテキスト設計 | コンテキストの選択・構造化 | モデルが一度に処理できる情報量(コンテキストウィンドウ)の制限を考慮しながら、必要な情報を選択・構造化してAIに渡す設計を行う | コンテキストウィンドウ |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Hugging Face Datasets | 機械学習用の公開データセットを検索・ダウンロードできるプラットフォーム |
| Kaggle | データサイエンスのコンペティションやデータセットを提供するプラットフォーム |
| Label Studio | 画像・テキスト・音声など多様なデータのアノテーション作業を支援するツール |
| Chroma | オープンソースのベクトルデータベース。RAG構築で埋め込みベクトルの保存・検索に使われる |
| Pinecone | マネージド型のベクトルデータベースサービス。大規模なセマンティック検索に適する |
エージェント・ツール呼び出し
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | エージェントの概念 | LLMが自律的に判断・行動するエージェントの仕組みを理解する | ReAct CoT |
| ツール呼び出し | LLMが外部ツールやAPIを呼び出す仕組みを理解する | Function Calling Tool Use | |
| メモリ・状態管理 | エージェントが会話履歴や作業の進捗などの状態を保持・参照する仕組みを理解する | 短期メモリ 長期メモリ | |
| マルチエージェントの概念 | 複数エージェントが協調して動作する仕組みを理解する | オーケストレーター サブエージェント | |
| 設計 | エージェント・ツール設計 | エージェントの目的・制約・ツールセットを定義し、呼び出すツールの仕様を設計する | |
| 実装 | エージェントフレームワーク | エージェント実装を支援するフレームワークを活用する | LangChain AutoGen CrewAI |
| Function Calling実装 | LLM APIのツール呼び出し機能を直接実装する | OpenAI API Anthropic API | |
| MCPサーバー | Model Context Protocolを用いたツール連携を実装する | MCP | |
| 品質評価 | エージェント評価指標 | エージェントの動作品質を定量的に評価する手法を理解する | タスク完了率 ツール選択精度 トークン効率 |
| 活用・応用 | タスク自動化エージェント | 複数ステップのタスクをエージェントで自動化する | |
| RAGエージェント | ナレッジベース検索をツールとして持つエージェントを実装する | LlamaIndex Haystack | |
| マルチモーダルエージェント | 画像・音声入力を扱うエージェントを実装する | GPT-4o Gemini | |
| マルチモーダル統合パターン | テキスト・画像・音声を組み合わせたアプリケーションの設計パターンを理解し実装する | GPT-4o Gemini Claude | |
| ノーコード・ローコードAIワークフロー | コードを書かずにAI機能を組み合わせたワークフローを構築するツールを活用する | n8n Make Dify Coze |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| LangChain | LLMを利用したアプリケーション・エージェント開発を支援するフレームワーク |
| AutoGen | マルチエージェント対話を構築できるMicrosoft発のフレームワーク |
| CrewAI | 複数エージェントの協調作業を定義・実行できるフレームワーク |
| n8n | オープンソースのワークフロー自動化ツール。AI連携も可能 |
| Dify | LLMアプリケーションをノーコードで構築・運用できるプラットフォーム |
| MCP | Model Context Protocol。AIモデルと外部ツールの連携を標準化するプロトコル |
テキストAI
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | LLMの仕組み | 大規模言語モデルがテキストを生成する仕組みの基礎を理解する | Transformer |
| トークン・コンテキストウィンドウ | トークンの概念とコンテキストウィンドウの制限を理解する | トークン コンテキストウィンドウ | |
| モデルの種類と特徴 | GPT、Claude、Geminiなど代表的なモデルの特徴と使い分けを理解する | GPT Claude Gemini Kimi DeepSeek LLM | |
| プロンプト設計 | 基本プロンプト設計 | AIに意図した出力を得るための指示の書き方を設計する | プロンプトエンジニアリング |
| システムプロンプト | AIの役割や振る舞いを定義する指示を設計する | システムプロンプト | |
| Few-shot・出力フォーマット制御 | 例示やフォーマット指定で出力をコントロールする手法を理解する | Few-shot JSON出力 | |
| 実装 | API連携 | LLMのAPIを呼び出し、アプリケーションに組み込む | OpenAI API Anthropic API |
| 対話フロー実装 | ユーザーとAIの対話の流れを実装する | ストリーミング 会話履歴管理 | |
| RAG組み込み | ナレッジベースを参照して回答を生成する仕組みを組み込む | RAG ベクトルデータベース | |
| ファインチューニング・LoRA | 特定ドメインや用途に合わせてモデルを追加学習する | LoRA PEFT ファインチューニング Hugging Face | |
| 品質評価 | テキスト生成の評価 | 翻訳・要約・文章生成の品質を定量的に評価する指標を理解する | BLEU ROUGE BERTScore Perplexity |
| RAG・検索の評価 | RAGシステムの回答精度・検索品質を評価する手法を理解する | RAGAS Faithfulness Answer Relevance Context Precision | |
| コード生成の評価 | コード生成の正確性・実行可能性を評価する指標を理解する | pass@k CodeBLEU | |
| 活用・応用 | チャットボット | ユーザーの質問に回答する対話型AIを実装する | ChatGPT |
| 文章生成・要約・翻訳 | 長文の生成、文章の要約、多言語への翻訳などを実装する | ||
| コード生成・補助 | コードの生成、補完、レビューなどにAIを活用する | GitHub Copilot Cursor Codex Claude Code | |
| 構造化データ抽出 | 非構造化テキストからJSON等の構造化データを取り出す手法を活用する | JSON |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| OpenAI API | GPT-4などのテキスト生成モデルをAPIで利用できるサービス |
| Anthropic API | ClaudeモデルをAPIで利用できるサービス |
| ChatGPT | 対話形式で文章生成・要約・壁打ちができる代表的な生成AIサービス |
| Claude | 長文読解や推論に強い対話型生成AIサービス |
| Gemini | Googleのマルチモーダル生成AIサービス |
| Hugging Face | オープンソースモデルの共有・ダウンロードプラットフォーム。ファインチューニングにも利用 |
| GitHub Copilot | コード補完・生成を行うAIアシスタント。IDE統合で開発フローに組み込める |
| Cursor | AIコーディング支援機能を統合したコードエディタ |
| Codex | OpenAIの開発者向けコード生成・補助系モデル/製品群 |
| LangChain | LLMアプリケーション開発フレームワーク。RAGやエージェント構築に活用 |
画像AI
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | 画像生成の仕組み | 拡散モデルなど画像生成の基礎的な仕組みを理解する | 拡散モデル ノイズ除去 Stable Diffusion |
| 画像認識の仕組み | 画像から情報を検出・分類する仕組みを理解する | 物体検出 画像分類 | |
| モデルの種類と特徴 | 画像生成・認識で使われる代表的なモデルの特徴を理解する | DALL-E Midjourney Stable Diffusion Flux Adobe Firefly | |
| プロンプト・出力設計 | 画像生成プロンプト | 画像生成AIに意図した画像を出力させるプロンプトの書き方を設計する | |
| img2img | 既存の画像を入力として、プロンプトや強度パラメータを組み合わせて新しい画像を生成する手法を理解する | img2img 強度(strength) | |
| 参照画像・IPアダプター | 既存の画像のスタイルやキャラクターを参照しながら新しい画像を生成する手法を理解する | IPアダプター 参照画像 | |
| スタイル制御・LoRA | 画風、構図、色調など出力画像のスタイルをコントロールする。LoRAを用いた追加学習も含む | スタイルプロンプト LoRA ControlNet | |
| ネガティブプロンプト・パラメータ | 出力したくない要素の指定や、シード値などのパラメータを活用する | ネガティブプロンプト シード値 CFGスケール | |
| 実装 | API連携 | 画像生成・認識APIを呼び出し、アプリケーションに組み込む | OpenAI API Stability AI API Replicate |
| 画像処理パイプライン | 画像の入力から出力までの処理の流れを構築する | Pillow OpenCV | |
| セグメンテーション | 画像内の特定領域を検出・分離する技術を実装する。Inpaintingの前処理などに活用される | SAM セグメンテーション | |
| 画像認識の組み込み | 画像認識機能をアプリケーションに組み込む | YOLO CLIP | |
| 品質評価 | 生成画像の評価 | 生成画像の品質を定量的に評価する手法を理解し、大量生成時の品質管理に活用する | FID CLIPScore IS |
| 物体検出の評価 | 物体検出モデルの精度を評価する指標を理解する | mAP IoU Precision Recall | |
| セグメンテーションの評価 | セグメンテーション結果の精度を評価する指標を理解する | mIoU Dice係数 | |
| 活用・応用 | コンテンツ制作 | バナー、アイキャッチ、イラストなどコンテンツの画像生成に活用する | Adobe Firefly Canva |
| 画像編集・変換 | 既存画像のスタイル変換、部分修正、解像度向上などに活用する | Inpainting Upscaling | |
| キャラクター・一貫性の維持 | 同じキャラクターや人物を複数の画像で一貫して生成するための手法を理解する | LoRA IPアダプター | |
| インタラクションへの組み込み | ユーザー入力に応じた画像生成や、画像認識を用いたインタラクションを実装する |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Midjourney | テキストプロンプトから高品質な画像を生成するAIサービス。芸術的な表現に強み |
| DALL-E | OpenAIが提供する画像生成AI。テキストから自然な画像を生成できる |
| Stable Diffusion | オープンソースの画像生成モデル。LoRAやControlNetによるカスタマイズが可能 |
| Adobe Firefly | Adobeの画像生成AI。商用利用に配慮した学習データで安全に利用できる |
| ComfyUI | Stable DiffusionのノードベースUI。画像生成パイプラインを視覚的に構築・カスタマイズできる |
| Replicate | 様々なAIモデルをAPIで利用できるプラットフォーム。画像・音声・映像など幅広く対応 |
3D・空間AI
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | 3D生成の仕組み | テキストや画像から3Dモデルを生成する仕組みの基礎を理解する | NeRF 3D Gaussian Splatting |
| 点群の概念 | 3D空間を点の集合で表現する点群データの構造と特徴を理解する | 点群 深度カメラ LiDAR Intel RealSense iPhone LiDAR Azure Kinect | |
| モデルの種類と特徴 | 3D生成で使われる代表的なモデルやサービスの特徴を理解する | Tripo3D Meshy Shap-E Luma AI Polycam | |
| 入力・出力設計 | 入力形式の選択 | テキスト・1枚画像・複数画像・動画など、目的に応じた入力形式を選択する | |
| 出力形式の設計 | 用途に合った3Dモデルの出力フォーマットを選択する | GLB OBJ FBX USDZ STL | |
| テクスチャ・マテリアル設計 | 3Dモデルの質感・色・反射などのマテリアルを設定し、リアリティや表現を高める | PBR UV展開 | |
| 実装 | API連携 | 3D生成APIを呼び出し、アプリケーションに組み込む | Tripo3D API Meshy API |
| 点群処理 | 点群データの取得・変換・処理を実装する | Open3D PCL CloudCompare Potree | |
| Web3D組み込み | 生成した3DモデルをWebやアプリに表示・活用する | Three.js WebGL model-viewer | |
| 品質評価 | 3D生成の評価 | 生成した3Dモデルの形状精度を定量的に評価する指標を理解する | Chamfer Distance EMD FID-3D |
| 空間再構成の評価 | NeRFや3D Gaussian Splattingによる空間再構成の品質を評価する指標を理解する | PSNR SSIM LPIPS | |
| 活用・応用 | ゲーム・VRアセット生成 | ゲームやVR/AR向けの3Dアセットをテキストや画像から生成する | Unity Unreal Engine Blender |
| 3Dスキャン・空間再構成 | リアル空間を撮影し、3Dデータとして再構成する | Luma AI Polycam | |
| AR/MR応用 | 生成した3Dモデルを拡張現実・複合現実空間に重ねて活用する | WebXR ARKit ARCore | |
| インタラクティブ3D作品 | 生成した3Dモデルをインタラクティブな作品や展示に活用する | Three.js React Three Fiber |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Tripo3D | テキストや画像から3Dモデルを生成するサービス。APIも提供 |
| Meshy | テキスト・画像から3Dモデルを生成するAIサービス。テクスチャ生成も可能 |
| Luma AI | 画像や動画から3Dシーンを再構成するサービス。NeRF技術を活用 |
| Three.js | Webブラウザ上で3Dグラフィックスを描画するJavaScriptライブラリ |
| Blender | オープンソースの3Dモデリング・アニメーションソフト。3Dアセットの編集に広く利用 |
| Polycam | スマートフォンで3Dスキャンができるアプリ。写真から3Dモデルを生成 |
音声AI
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | 音声合成の仕組み | テキストから音声を生成する仕組みの基礎を理解する | TTS |
| 音声認識の仕組み | 音声からテキストを変換する仕組みの基礎を理解する | STT ASR | |
| モデルの種類と特徴 | 音声合成・認識で使われる代表的なモデルやサービスの特徴を理解する | Whisper ElevenLabs OpenAI TTS VOICEVOX RVC | |
| パラメータ・出力設計 | 音声パラメータ調整 | 話速、ピッチ、感情など音声出力のパラメータを調整する | 話速 ピッチ |
| 認識精度の調整 | 音声認識の精度を高めるためのコンテキストや語彙の設定を行う | ||
| 話者・感情の制御 | 話者の選択や感情表現の制御方法を理解する | ボイスクローン 感情合成 | |
| 実装 | API連携 | 音声合成・認識APIを呼び出し、アプリケーションに組み込む | ElevenLabs API OpenAI API |
| リアルタイム音声処理 | マイク入力からのリアルタイム認識や、ストリーミング音声合成を実装する | WebSocket ストリーミング Web Speech API | |
| 話者適応・LoRA | 特定話者や音声スタイルに合わせたモデルの追加学習を理解する | LoRA ボイスクローン | |
| 品質評価 | 音声合成の評価 | 生成音声の自然性・明瞭度を評価する指標を理解する | MOS PESQ STOI |
| 音声認識の評価 | 音声認識の精度を評価する指標を理解する | WER CER | |
| 話者認識の評価 | 話者識別・話者検証の精度を評価する指標を理解する | EER 話者類似度 | |
| 活用・応用 | 音声アシスタント | 音声での対話や操作を可能にするアシスタントを実装する | |
| ナレーション生成 | 動画やスライドのナレーションを自動生成する | VOICEVOX | |
| 音声変換(Voice Conversion) | ある話者の音声を別の話者のスタイルに変換する手法を理解する | ボイスコンバージョン RVC | |
| 多言語音声 | 複数言語での音声合成・認識に活用する |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Whisper | OpenAIが開発した高精度な音声認識モデル。多言語対応でオープンソース |
| ElevenLabs | 高品質な音声合成・ボイスクローンができるAIサービス。APIも提供 |
| VOICEVOX | 日本語に特化した無料の音声合成ソフト。ナレーション生成に広く利用 |
| OpenAI TTS | OpenAIが提供するテキスト読み上げAPI。自然な音声合成が可能 |
| RVC | Retrieval-based Voice Conversion。音声のスタイル変換に使われるオープンソースツール |
| Web Speech API | ブラウザ標準の音声認識・合成API。Webアプリでの音声機能実装に利用 |
音楽・サウンドAI
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | 音楽生成の仕組み | AIが楽曲や効果音を生成する仕組みの基礎を理解する | Transformer 拡散モデル |
| モデルの種類と特徴 | 音楽生成で使われる代表的なモデルやサービスの特徴を理解する | Suno Udio MusicGen Soundraw Stable Audio AIVA | |
| プロンプト・出力設計 | 音楽プロンプト設計 | ジャンル、楽器、テンポ、ムードなどを指定して意図した楽曲を生成する | ジャンル BPM 楽器指定 |
| 出力形式・構成設計 | 楽曲の長さ、ループ設定、ファイル形式などを設計する | MP3 WAV MIDI | |
| 実装 | API連携 | 音楽生成APIを呼び出し、アプリケーションに組み込む | Suno API ElevenLabs API |
| 音楽データの処理・加工 | 生成した音楽ファイルの編集・変換・結合などの処理を実装する | librosa pydub FFmpeg | |
| リアルタイム音楽生成 | ユーザー入力やセンサー情報に応じてリアルタイムに音楽を生成・制御する実装を行う | Web Audio API Tone.js WebSocket | |
| 歌声合成の組み込み | 歌声合成エンジンをアプリケーションに組み込み、歌声を動的に生成する | SynthV API VOCALOID ACE Studio | |
| 品質評価 | 音楽品質指標 | 生成楽曲の品質(音楽性・リズム精度・音質等)を評価する客観・主観指標を理解する | FAD Inception Score MUSHRA |
| 活用・応用 | BGM・効果音生成 | 映像や作品に合わせたBGMや効果音を生成する | |
| 歌声合成 | AIを用いて歌声を生成・合成する技術を活用する | VOCALOID SynthV ACE Studio | |
| インタラクティブ音楽 | ユーザーの操作や状況に応じて動的に音楽を生成・変化させる | Web Audio API Tone.js | |
| 楽曲制作補助 | 作曲のアイデア出しや編曲補助にAIを活用する | AIVA DAW |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Suno | テキストプロンプトから楽曲を生成するAIサービス。ボーカル付きの楽曲も生成可能 |
| Udio | テキストから高品質な楽曲を生成するAIサービス。ジャンルやスタイルの指定が豊富 |
| MusicGen | Metaが開発したオープンソースの音楽生成モデル。テキストやメロディから楽曲を生成 |
| Stable Audio | Stability AIが提供する音楽・サウンド生成AI。効果音やBGMの生成に適する |
| VOCALOID | Yamahaが開発した歌声合成技術。歌唱表現の豊かなボーカル音声を生成 |
| SynthV | 高品質な歌声合成ができるソフトウェア。日本語・中国語・英語に対応 |
| AIVA | 映像・ゲーム向けBGM生成に強いAI作曲サービス。商用利用ライセンスも整備されている |
映像AI
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | 動画生成の仕組み | テキストや画像から動画を生成する仕組みの基礎を理解する | Video Diffusion Transformer |
| リアルタイム映像処理の基礎 | カメラ入力をリアルタイムに処理する仕組みの基礎を理解する | ||
| モデルの種類と特徴 | 動画生成・処理で使われる代表的なモデルやサービスの特徴を理解する | Runway Kling Pika Luma Dream Machine HeyGen | |
| プロンプト・出力設計 | 動画生成プロンプト | 動画生成AIに意図した映像を出力させるプロンプトの書き方を設計する | |
| img2video | 既存の画像を入力として動画を生成する手法を理解する | img2video | |
| カメラ・構図制御 | カメラの動き、構図、アングルなど映像の構成をコントロールする | カメラワーク パン ズーム | |
| スタイル・雰囲気の指定 | 映像の画風、雰囲気、時間帯など表現の方向性を指定する | ||
| 実装 | API連携 | 動画生成・処理APIを呼び出し、アプリケーションに組み込む | Runway API Kling API |
| 映像処理パイプライン | 映像の入力から出力までの処理の流れを構築する | FFmpeg OpenCV | |
| リアルタイム映像処理 | カメラ入力を用いたリアルタイムの映像処理・変換を実装する | OpenCV WebRTC | |
| 品質評価 | 映像生成の評価 | 生成映像の品質(フレーム整合性・動き自然性・解像度等)を評価する手法を理解する | FVD SSIM PSNR |
| DeepFake検出の評価 | DeepFake・フェイク映像の検出精度を評価する指標を理解する | AUC Accuracy F1スコア | |
| 活用・応用 | 動画コンテンツ制作 | プロモーション動画、アニメーション、ショート動画などの制作に活用する | |
| リップシンク・アバター | AIを使ってキャラクターや人物の口の動きを生成し、映像と音声を同期させる | HeyGen D-ID | |
| DeepFake・フェイススワップ | 顔の入れ替えや映像変換技術の仕組みと活用方法を理解する | DeepFake フェイススワップ | |
| 映像変換・編集 | 映像のスタイル変換、背景差し替え、解像度向上などに活用する | Topaz Video AI EbSynth |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Runway | 動画生成・編集AIプラットフォーム。img2videoやスタイル変換など幅広い機能を提供 |
| Kling | Kuaishouが開発した動画生成AI。高品質な映像生成が可能 |
| Pika | テキストや画像から短い動画を生成するAIサービス |
| Luma Dream Machine | テキスト・画像から3D映像や動画を生成するAIサービス |
| HeyGen | リップシンク付きのアバター動画を生成できるAIサービス。多言語対応にも強い |
| FFmpeg | 動画・音声の変換・編集を行うコマンドラインツール。映像処理パイプラインの基盤として広く利用 |
身体認識・センシングAI
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | 骨格推定・姿勢検出の仕組み | カメラ映像から人体の骨格や姿勢を検出する仕組みを理解する | Pose Estimation |
| 顔認識・表情認識の仕組み | カメラ映像から顔を検出し、表情や感情を認識する仕組みを理解する | 顔認識 表情認識 DeepFace | |
| モデルの種類と特徴 | 骨格推定・ジェスチャー認識で使われる代表的なモデルの特徴を理解する | MediaPipe MoveNet OpenPose Rokoko | |
| 検出精度の基礎 | 検出の信頼度スコアや精度に影響する要因を理解する | 信頼度スコア | |
| 非接触センシングの仕組み | WiFiやレーダーなどの電波を用いてカメラなしに人の動き・姿勢・バイタルサインを検出する仕組みを理解する | WiFiセンシング CSI RF-Pose | |
| 検出・インタラクション設計 | 検出ポイント設定 | どの部位を検出対象にするか、何をトリガーにするかを設計する | ランドマーク |
| 閾値設計 | 検出の感度や反応のタイミングを調整する閾値を設計する | ||
| インタラクションのマッピング設計 | 検出結果をどのような操作や表現に結びつけるかを設計する | ||
| 実装 | MediaPipe等の組み込み | 骨格推定・ジェスチャー認識のライブラリをアプリケーションに組み込む | MediaPipe TensorFlow.js ml5.js |
| リアルタイム検出実装 | カメラからの映像入力の取得・前処理と、リアルタイムの骨格推定・ジェスチャー認識を実装する | WebRTC Canvas | |
| 品質評価 | 骨格推定の評価 | 骨格推定・ポーズ推定の精度を評価する指標を理解する | PCKh mAP OKS |
| 顔・表情認識の評価 | 顔認識・表情認識の精度を評価する指標を理解する | Rank-1 Accuracy 感情クラス別Accuracy EER | |
| センシング精度の評価 | WiFiセンシングや非接触検出の測位・バイタル推定精度を評価する指標を理解する | RMSE F1スコア | |
| 活用・応用 | インタラクティブ作品 | 身体の動きで操作・表現するインタラクティブアートやインスタレーションを制作する | p5.js TouchDesigner |
| ジェスチャー操作 | 手話やハンドジェスチャーによる操作インターフェースを実装する | ||
| モーションキャプチャ | 身体の動きをキャラクターに反映するモーションキャプチャに活用する | Rokoko | |
| フィットネス・健康応用 | 姿勢判定や運動フォームチェックなど健康・フィットネス分野に活用する | ||
| 視線追跡(アイトラッキング) | 視線の動きを検出し、UI操作や注視分析などに活用する | Tobii WebGazer.js | |
| WiFiセンシング・非接触検出 | WiFiの電波を用いて壁越しの人物検出や呼吸・心拍のモニタリングなどに活用する | WiFiセンシング バイタルサイン検知 |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| MediaPipe | Googleが開発した骨格推定・ジェスチャー認識ライブラリ。Web・モバイル両対応 |
| OpenPose | カーネギーメロン大学開発の骨格推定ライブラリ。高精度な全身推定が可能 |
| TensorFlow.js | ブラウザ上で機械学習モデルを実行できるライブラリ。リアルタイム推定に活用 |
| p5.js | クリエイティブコーディング向けのJavaScriptライブラリ。インタラクティブ作品の制作に適する |
| TouchDesigner | リアルタイムのインタラクティブメディア制作ソフト。映像・音・センサー入力の統合に強み |
| Rokoko | モーションキャプチャ向けのハードウェア/ソフトウェア群。身体動作をキャラクターへ反映できる |
| WebRTC | ブラウザ間でリアルタイム通信を実現する技術。カメラ映像の取得に利用 |
評価・品質管理
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 評価フレームワーク | 評価指標の設計 | AI出力の品質を測る指標を目的に応じて設計する | |
| ベンチマーク設計 | 定量的な評価基準とテストケースを設計し、継続的に計測できる仕組みを作る | ||
| 人間評価(ヒューマンエバリュエーション) | ユーザーや専門家によるAI出力の定性評価を設計・実施する | RLHF | |
| ハルシネーション・誤生成検知 | 事実確認 | テキスト生成での事実誤りや虚構を検知・確認する | ファクトチェック |
| 不適切出力の検知 | 有害、偏見、不適切な出力を検知する仕組みを理解する | コンテンツフィルタリング | |
| 誤生成の対策 | 期待と異なる出力を防ぐ・修正する手法を理解する | ||
| 安全性・バイアステスト | プロンプトインジェクション | 悪意ある入力でAIの動作を乗っ取ろうとする攻撃の仕組みと対策を理解する | プロンプトインジェクション |
| ジェイルブレイク対策 | 制約を回避しようとする入力パターンと防御策を理解する | ガードレール | |
| 情報漏洩リスク | システムプロンプトや内部データが漏洩するリスクと対策を理解する | ||
| 有害出力の防止 | 暴力的、差別的、有害な出力を防ぐ仕組みを設計・確認する | セーフティフィルター | |
| 偏り・バイアスの確認 | 出力に偏りやステレオタイプが含まれていないかを確認する | ||
| 利用規約遵守 | 各AIサービスの利用規約や制約を遵守しているかを確認する | ||
| 安定性・再現性確認 | 出力ばらつきの確認 | 同一入力に対する出力のばらつきを確認し、安定性を評価する | 温度パラメータ シード値 |
| エッジケースの確認 | 想定外の入力に対する挙動を確認する | ||
| 継続的品質確認 | モデルの更新や環境変化に伴う品質変動を継続的に確認する |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Promptfoo | プロンプトの品質を自動テスト・比較評価するツール。複数モデルの横断比較も可能 |
| LangSmith | LangChainの監視・デバッグ・評価プラットフォーム。トレースやフィードバック管理に活用 |
| Langfuse | LLMアプリケーションの監視・評価プラットフォーム。オープンソースで利用可能 |
| RAGAS | RAGシステムの評価指標を提供するフレームワーク。FaithfulnessやAnswer Relevanceを測定 |
| Helicone | LLM APIの呼び出しログ・コスト・パフォーマンスを監視するプラットフォーム |
インフラ・開発・運用
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| API・コスト管理 | API選定 | 目的に合ったAI APIやモデルを選定する | OpenAI API Anthropic API Google AI API |
| レート制限・クォータ管理 | APIの呼び出し制限や利用量を管理し、安定した運用を図る | レートリミット クォータ | |
| コスト見積もり・最適化 | API利用料を見積もり、コストを最適化する | トークン課金 使用量監視 プロンプトキャッシュ バッチAPI | |
| 開発環境・実装基盤 | 開発環境構築 | AI開発に必要な環境を構築する | Python Node.js Jupyter Notebook |
| フレームワーク選定 | AI機能の実装に適したフレームワークやライブラリを選定する | LangChain LlamaIndex | |
| バージョン管理 | プロンプトや設定の変更履歴を管理する | Git | |
| 仮想環境管理 | プロジェクトごとの依存関係を分離し、再現性のある環境を管理する | venv uv conda | |
| シークレット・環境変数管理 | APIキーなどの機密情報をコードに埋め込まずに安全に管理する | .env dotenv python-dotenv | |
| デプロイ・サービング | デプロイ方法 | AI機能を組み込んだアプリケーションのデプロイ方法を理解する | Vercel AWS Docker |
| モデルサービング | AIモデルをAPIとして提供・運用する方法を理解する | FastAPI BentoML TorchServe | |
| CI/CD | AIアプリケーションの継続的インテグレーション・デプロイを自動化する | GitHub Actions CI/CD | |
| スケーリング | 利用増に応じたスケーリングとコスト管理を理解する | Auto Scaling Kubernetes ロードバランサー | |
| プロンプト管理・バージョニング | プロンプトのバージョン管理 | プロンプトをコードと同様に管理し、変更履歴・差分を追跡する | Git LangSmith Promptfoo |
| プロンプトのテスト・評価 | プロンプトの変更が出力品質に与える影響を自動テスト・比較評価する | Promptfoo LangSmith | |
| 監視・改善 | ログ・メトリクス監視 | APIの呼び出し状況、エラー率、レスポンス時間などを監視する | Sentry CloudWatch Langfuse Helicone |
| プロンプト改善 | 出力品質やユーザーフィードバックに基づいてプロンプトを継続的に改善する | Langfuse LangSmith | |
| ユーザーフィードバック分析 | ユーザーの反応や利用状況を分析し、改善に活かす | Google Analytics | |
| 継続的改善 | PDCAサイクルを回し、AI機能の品質と効率を継続的に向上させる | PDCA A/Bテスト |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Python | AI開発で最も広く使われるプログラミング言語。豊富なライブラリエコシステムを持つ |
| Jupyter Notebook | インタラクティブにコードを実行・可視化できる環境。データ分析やプロトタイピングに適する |
| LangChain | LLMアプリケーション開発フレームワーク。RAGやエージェント構築に活用 |
| Docker | アプリケーションをコンテナ化するプラットフォーム。環境の再現性とデプロイの簡素化に貢献 |
| GitHub Actions | GitHubのCI/CDサービス。テスト・デプロイの自動化に利用 |
| Vercel | フロントエンド・サーバーレス関数のデプロイプラットフォーム。迅速な公開に適する |
ローカルAI環境
| 中項目 | 小項目 | 説明 | キーワード / ツール |
|---|---|---|---|
| 基礎理解 | ローカルLLMの概要 | クラウドAPIと異なる、ローカル実行の特徴・利点・制約を理解する | オープンソースモデル オフライン実行 |
| クラウドAPIとの使い分け | コスト・プライバシー・速度・品質の観点で使い分けを判断する | プライバシー コスト比較 | |
| ハードウェア要件 | GPU・メモリ・ストレージ等の必要スペックを理解する | VRAM RAM 量子化 | |
| 環境構築 | ローカルモデルの導入 | ローカルでLLMを動かす環境を構築する | Ollama LM Studio |
| モデルの選定・取得 | 目的に合ったオープンモデルを選定・ダウンロードする | Llama Mistral Mixtral DeepSeek Qwen GLM Gemma Phi GPT-OSS Nemotron Falcon MiniMax Command R Grok Hugging Face | |
| 量子化・軽量化 | 限られたリソースでモデルを動かすための量子化・軽量化を理解する | GGUF llama.cpp AWQ GPTQ 4bit量子化 | |
| 活用・応用 | ローカルAPIサーバー | ローカルモデルをAPIとして提供し、既存アプリと連携する | Ollama API FastAPI |
| ローカルRAG | ローカルLLMとベクトルDBを組み合わせ、外部送信なしにRAGを構築する | Chroma Ollama LlamaIndex | |
| プライベートデータ活用 | 機密情報を外部送信せずにAIを活用する | オフラインRAG 社内データ | |
| ローカルエージェント | ローカルLLMをバックエンドとしてエージェントを構築する | Ollama LangChain | |
| 画像・音声のローカル実行 | 画像生成・音声認識等もローカルで実行する | Stable Diffusion ComfyUI AUTOMATIC1111 Whisper |
よく使うツール / サービス
| ツール名 / サービス名 | 説明 |
|---|---|
| Ollama | ローカルでLLMを簡単に実行できるツール。モデルのダウンロード・APIサーバー起動を一元管理 |
| LM Studio | GUIでローカルLLMを管理・実行できるアプリ。モデルの検索・ダウンロード・チャットが可能 |
| Hugging Face | オープンソースのAIモデル・データセットを共有するプラットフォーム。モデルの検索・ダウンロードに利用 |
| ComfyUI | Stable DiffusionのノードベースUI。画像生成パイプラインを視覚的に構築・カスタマイズできる |
| llama.cpp | C++で実装されたLLM推論エンジン。GGUF形式の量子化モデルを高速に実行可能 |
| FastAPI | 高速なPython Webフレームワーク。AIモデルのAPIサーバー構築に広く利用 |