Open Study Group on Anything

AI活用ロードマップ

26.5.16

ロードマップ

AI活用

概要

AIの基礎理解からデータ設計、エージェント、テキスト・画像・音声・映像・3D、評価、運用、ローカル環境まで、AI活用に必要な知識と実践を体系的に整理した詳細ガイドです。

概要版はこちら

用語集はこちら

ダウンロード

PDF版

内容

AIの基礎理解

中項目	小項目	説明	キーワード / ツール
AIの概要	AIの種類	機械学習、深層学習、生成AIなどAIの分類とそれぞれの特徴を理解する	`機械学習` `深層学習` `生成AI`
	できること・できないこと	AIが得意なことと苦手なこと、現時点での限界を整理する	`ハルシネーション`
	生成AIの仕組み	生成AIがどのように出力を生み出すかの基礎的な仕組みを理解する	`Transformer` `Attention` `次単語予測`
	各モダリティの位置づけ	テキスト・画像・音声・映像・身体認識それぞれの概要と得意領域、およびこれらを複合的に扱うマルチモーダルAIについて理解する	`GPT-4o` `Claude` `Gemini` `マルチモーダル`
	AIの使い方の分類	ツールとして使う・APIで組み込む・モデルをカスタマイズするという3つの活用レイヤーを理解し、自分の目的に合った学習パスを選ぶ	`ツール利用` `API連携` `モデルカスタマイズ`
	主要モデルの選び方	用途・コスト・データの扱いという3つの軸でモデルを選ぶ視点を理解する	`GPT` `Claude` `Gemini` `Kimi` `DeepSeek`
	主要ベンダーの特徴	OpenAI、Anthropic、Google、中国系各社の特徴と立ち位置を整理する	`OpenAI` `Anthropic` `Google` `Kimi` `DeepSeek` `GLM` `Qwen`
用語・概念整理	基本用語の理解	プロンプト、トークン、モデル、APIなどAI活用に必要な基本用語を理解する	`プロンプト` `トークン` `API`
倫理・影響	著作権・ライセンス・利用規約	AI生成物の著作権、学習データのライセンス、各AIサービスの利用規約を確認し、適切に利用する	`クリエイティブコモンズ`
	バイアス・フェイク	AIの出力に偏りや虚偽が含まれる可能性と、その影響を理解する	`ハルシネーション` `ディープフェイク`
	情報漏洩・セキュリティ	AIサービスに入力した情報の扱いや、セキュリティ上の注意点を理解する

よく使うツール / サービス

ツール名 / サービス名	説明
ChatGPT	OpenAIが提供する対話型生成AIサービス。テキスト生成、要約、翻訳など幅広い用途で利用される
Claude	Anthropicが提供する対話型生成AI。長文の理解や論理的推論に強みを持つ
Gemini	Googleが提供するマルチモーダル生成AI。テキスト・画像・音声などを統合的に扱える
Kimi	Moonshot AIが提供する対話型AI。長い文脈や大量PDFの読解に強みを持つ
DeepSeek	中国発の生成AI。コード・数学・推論に強く、オープンモデル展開でも注目される
Perplexity	AI検索エンジン。情報検索と要約を組み合わせた回答を提供する

データ・知識設計

中項目	小項目	説明	キーワード / ツール
データ収集・整理	データの収集方法	AIに学習させる・参照させるデータの集め方を理解する	`Hugging Face Datasets` `Kaggle`
	データ形式の整理	テキスト、画像、音声など各モダリティに適したデータ形式を整理する	`JSON` `CSV` `Markdown`
	著作権・ライセンス確認	使用するデータの著作権やライセンスを確認し、適切に利用する
データ前処理	クリーニング	ノイズや不要なデータを除去し、AIに適した形に整える
	正規化・フォーマット変換	データをAIが処理しやすい形式に変換する
	アノテーション	データに意味づけやラベル付けを行い、AIの学習・認識精度を高める	`Label Studio`
ナレッジベース設計	RAG用データの構造化	検索・参照しやすい形にデータを構造化する	`チャンク分割` `ベクトル化`
	メタデータ設計	データの属性や分類情報を設計し、検索精度を高める
	インデックス・検索設計	ナレッジベースから必要な情報を効率的に検索・取得する仕組みを設計する	`ベクトル検索` `セマンティック検索` `Chroma` `Pinecone`
コンテキスト設計	コンテキストの選択・構造化	モデルが一度に処理できる情報量（コンテキストウィンドウ）の制限を考慮しながら、必要な情報を選択・構造化してAIに渡す設計を行う	`コンテキストウィンドウ`

よく使うツール / サービス

ツール名 / サービス名	説明
Hugging Face Datasets	機械学習用の公開データセットを検索・ダウンロードできるプラットフォーム
Kaggle	データサイエンスのコンペティションやデータセットを提供するプラットフォーム
Label Studio	画像・テキスト・音声など多様なデータのアノテーション作業を支援するツール
Chroma	オープンソースのベクトルデータベース。RAG構築で埋め込みベクトルの保存・検索に使われる
Pinecone	マネージド型のベクトルデータベースサービス。大規模なセマンティック検索に適する

エージェント・ツール呼び出し

中項目	小項目	説明	キーワード / ツール
基礎理解	エージェントの概念	LLMが自律的に判断・行動するエージェントの仕組みを理解する	`ReAct` `CoT`
	ツール呼び出し	LLMが外部ツールやAPIを呼び出す仕組みを理解する	`Function Calling` `Tool Use`
	メモリ・状態管理	エージェントが会話履歴や作業の進捗などの状態を保持・参照する仕組みを理解する	`短期メモリ` `長期メモリ`
	マルチエージェントの概念	複数エージェントが協調して動作する仕組みを理解する	`オーケストレーター` `サブエージェント`
設計	エージェント・ツール設計	エージェントの目的・制約・ツールセットを定義し、呼び出すツールの仕様を設計する
実装	エージェントフレームワーク	エージェント実装を支援するフレームワークを活用する	`LangChain` `AutoGen` `CrewAI`
	Function Calling実装	LLM APIのツール呼び出し機能を直接実装する	`OpenAI API` `Anthropic API`
	MCPサーバー	Model Context Protocolを用いたツール連携を実装する	`MCP`
品質評価	エージェント評価指標	エージェントの動作品質を定量的に評価する手法を理解する	`タスク完了率` `ツール選択精度` `トークン効率`
活用・応用	タスク自動化エージェント	複数ステップのタスクをエージェントで自動化する
	RAGエージェント	ナレッジベース検索をツールとして持つエージェントを実装する	`LlamaIndex` `Haystack`
	マルチモーダルエージェント	画像・音声入力を扱うエージェントを実装する	`GPT-4o` `Gemini`
	マルチモーダル統合パターン	テキスト・画像・音声を組み合わせたアプリケーションの設計パターンを理解し実装する	`GPT-4o` `Gemini` `Claude`
	ノーコード・ローコードAIワークフロー	コードを書かずにAI機能を組み合わせたワークフローを構築するツールを活用する	`n8n` `Make` `Dify` `Coze`

よく使うツール / サービス

ツール名 / サービス名	説明
LangChain	LLMを利用したアプリケーション・エージェント開発を支援するフレームワーク
AutoGen	マルチエージェント対話を構築できるMicrosoft発のフレームワーク
CrewAI	複数エージェントの協調作業を定義・実行できるフレームワーク
n8n	オープンソースのワークフロー自動化ツール。AI連携も可能
Dify	LLMアプリケーションをノーコードで構築・運用できるプラットフォーム
MCP	Model Context Protocol。AIモデルと外部ツールの連携を標準化するプロトコル

テキストAI

中項目	小項目	説明	キーワード / ツール
基礎理解	LLMの仕組み	大規模言語モデルがテキストを生成する仕組みの基礎を理解する	`Transformer`
	トークン・コンテキストウィンドウ	トークンの概念とコンテキストウィンドウの制限を理解する	`トークン` `コンテキストウィンドウ`
	モデルの種類と特徴	GPT、Claude、Geminiなど代表的なモデルの特徴と使い分けを理解する	`GPT` `Claude` `Gemini` `Kimi` `DeepSeek` `LLM`
プロンプト設計	基本プロンプト設計	AIに意図した出力を得るための指示の書き方を設計する	`プロンプトエンジニアリング`
	システムプロンプト	AIの役割や振る舞いを定義する指示を設計する	`システムプロンプト`
	Few-shot・出力フォーマット制御	例示やフォーマット指定で出力をコントロールする手法を理解する	`Few-shot` `JSON出力`
実装	API連携	LLMのAPIを呼び出し、アプリケーションに組み込む	`OpenAI API` `Anthropic API`
	対話フロー実装	ユーザーとAIの対話の流れを実装する	`ストリーミング` `会話履歴管理`
	RAG組み込み	ナレッジベースを参照して回答を生成する仕組みを組み込む	`RAG` `ベクトルデータベース`
	ファインチューニング・LoRA	特定ドメインや用途に合わせてモデルを追加学習する	`LoRA` `PEFT` `ファインチューニング` `Hugging Face`
品質評価	テキスト生成の評価	翻訳・要約・文章生成の品質を定量的に評価する指標を理解する	`BLEU` `ROUGE` `BERTScore` `Perplexity`
	RAG・検索の評価	RAGシステムの回答精度・検索品質を評価する手法を理解する	`RAGAS` `Faithfulness` `Answer Relevance` `Context Precision`
	コード生成の評価	コード生成の正確性・実行可能性を評価する指標を理解する	`pass@k` `CodeBLEU`
活用・応用	チャットボット	ユーザーの質問に回答する対話型AIを実装する	`ChatGPT`
	文章生成・要約・翻訳	長文の生成、文章の要約、多言語への翻訳などを実装する
	コード生成・補助	コードの生成、補完、レビューなどにAIを活用する	`GitHub Copilot` `Cursor` `Codex` `Claude Code`
	構造化データ抽出	非構造化テキストからJSON等の構造化データを取り出す手法を活用する	`JSON`

よく使うツール / サービス

ツール名 / サービス名	説明
OpenAI API	GPT-4などのテキスト生成モデルをAPIで利用できるサービス
Anthropic API	ClaudeモデルをAPIで利用できるサービス
ChatGPT	対話形式で文章生成・要約・壁打ちができる代表的な生成AIサービス
Claude	長文読解や推論に強い対話型生成AIサービス
Gemini	Googleのマルチモーダル生成AIサービス
Hugging Face	オープンソースモデルの共有・ダウンロードプラットフォーム。ファインチューニングにも利用
GitHub Copilot	コード補完・生成を行うAIアシスタント。IDE統合で開発フローに組み込める
Cursor	AIコーディング支援機能を統合したコードエディタ
Codex	OpenAIの開発者向けコード生成・補助系モデル／製品群
LangChain	LLMアプリケーション開発フレームワーク。RAGやエージェント構築に活用

画像AI

中項目	小項目	説明	キーワード / ツール
基礎理解	画像生成の仕組み	拡散モデルなど画像生成の基礎的な仕組みを理解する	`拡散モデル` `ノイズ除去` `Stable Diffusion`
	画像認識の仕組み	画像から情報を検出・分類する仕組みを理解する	`物体検出` `画像分類`
	モデルの種類と特徴	画像生成・認識で使われる代表的なモデルの特徴を理解する	`DALL-E` `Midjourney` `Stable Diffusion` `Flux` `Adobe Firefly`
プロンプト・出力設計	画像生成プロンプト	画像生成AIに意図した画像を出力させるプロンプトの書き方を設計する
	img2img	既存の画像を入力として、プロンプトや強度パラメータを組み合わせて新しい画像を生成する手法を理解する	`img2img` `強度（strength）`
	参照画像・IPアダプター	既存の画像のスタイルやキャラクターを参照しながら新しい画像を生成する手法を理解する	`IPアダプター` `参照画像`
	スタイル制御・LoRA	画風、構図、色調など出力画像のスタイルをコントロールする。LoRAを用いた追加学習も含む	`スタイルプロンプト` `LoRA` `ControlNet`
	ネガティブプロンプト・パラメータ	出力したくない要素の指定や、シード値などのパラメータを活用する	`ネガティブプロンプト` `シード値` `CFGスケール`
実装	API連携	画像生成・認識APIを呼び出し、アプリケーションに組み込む	`OpenAI API` `Stability AI API` `Replicate`
	画像処理パイプライン	画像の入力から出力までの処理の流れを構築する	`Pillow` `OpenCV`
	セグメンテーション	画像内の特定領域を検出・分離する技術を実装する。Inpaintingの前処理などに活用される	`SAM` `セグメンテーション`
	画像認識の組み込み	画像認識機能をアプリケーションに組み込む	`YOLO` `CLIP`
品質評価	生成画像の評価	生成画像の品質を定量的に評価する手法を理解し、大量生成時の品質管理に活用する	`FID` `CLIPScore` `IS`
	物体検出の評価	物体検出モデルの精度を評価する指標を理解する	`mAP` `IoU` `Precision` `Recall`
	セグメンテーションの評価	セグメンテーション結果の精度を評価する指標を理解する	`mIoU` `Dice係数`
活用・応用	コンテンツ制作	バナー、アイキャッチ、イラストなどコンテンツの画像生成に活用する	`Adobe Firefly` `Canva`
	画像編集・変換	既存画像のスタイル変換、部分修正、解像度向上などに活用する	`Inpainting` `Upscaling`
	キャラクター・一貫性の維持	同じキャラクターや人物を複数の画像で一貫して生成するための手法を理解する	`LoRA` `IPアダプター`
	インタラクションへの組み込み	ユーザー入力に応じた画像生成や、画像認識を用いたインタラクションを実装する

よく使うツール / サービス

ツール名 / サービス名	説明
Midjourney	テキストプロンプトから高品質な画像を生成するAIサービス。芸術的な表現に強み
DALL-E	OpenAIが提供する画像生成AI。テキストから自然な画像を生成できる
Stable Diffusion	オープンソースの画像生成モデル。LoRAやControlNetによるカスタマイズが可能
Adobe Firefly	Adobeの画像生成AI。商用利用に配慮した学習データで安全に利用できる
ComfyUI	Stable DiffusionのノードベースUI。画像生成パイプラインを視覚的に構築・カスタマイズできる
Replicate	様々なAIモデルをAPIで利用できるプラットフォーム。画像・音声・映像など幅広く対応

3D・空間AI

中項目	小項目	説明	キーワード / ツール
基礎理解	3D生成の仕組み	テキストや画像から3Dモデルを生成する仕組みの基礎を理解する	`NeRF` `3D Gaussian Splatting`
	点群の概念	3D空間を点の集合で表現する点群データの構造と特徴を理解する	`点群` `深度カメラ` `LiDAR` `Intel RealSense` `iPhone LiDAR` `Azure Kinect`
	モデルの種類と特徴	3D生成で使われる代表的なモデルやサービスの特徴を理解する	`Tripo3D` `Meshy` `Shap-E` `Luma AI` `Polycam`
入力・出力設計	入力形式の選択	テキスト・1枚画像・複数画像・動画など、目的に応じた入力形式を選択する
	出力形式の設計	用途に合った3Dモデルの出力フォーマットを選択する	`GLB` `OBJ` `FBX` `USDZ` `STL`
	テクスチャ・マテリアル設計	3Dモデルの質感・色・反射などのマテリアルを設定し、リアリティや表現を高める	`PBR` `UV展開`
実装	API連携	3D生成APIを呼び出し、アプリケーションに組み込む	`Tripo3D API` `Meshy API`
	点群処理	点群データの取得・変換・処理を実装する	`Open3D` `PCL` `CloudCompare` `Potree`
	Web3D組み込み	生成した3DモデルをWebやアプリに表示・活用する	`Three.js` `WebGL` `model-viewer`
品質評価	3D生成の評価	生成した3Dモデルの形状精度を定量的に評価する指標を理解する	`Chamfer Distance` `EMD` `FID-3D`
	空間再構成の評価	NeRFや3D Gaussian Splattingによる空間再構成の品質を評価する指標を理解する	`PSNR` `SSIM` `LPIPS`
活用・応用	ゲーム・VRアセット生成	ゲームやVR/AR向けの3Dアセットをテキストや画像から生成する	`Unity` `Unreal Engine` `Blender`
	3Dスキャン・空間再構成	リアル空間を撮影し、3Dデータとして再構成する	`Luma AI` `Polycam`
	AR/MR応用	生成した3Dモデルを拡張現実・複合現実空間に重ねて活用する	`WebXR` `ARKit` `ARCore`
	インタラクティブ3D作品	生成した3Dモデルをインタラクティブな作品や展示に活用する	`Three.js` `React Three Fiber`

よく使うツール / サービス

ツール名 / サービス名	説明
Tripo3D	テキストや画像から3Dモデルを生成するサービス。APIも提供
Meshy	テキスト・画像から3Dモデルを生成するAIサービス。テクスチャ生成も可能
Luma AI	画像や動画から3Dシーンを再構成するサービス。NeRF技術を活用
Three.js	Webブラウザ上で3Dグラフィックスを描画するJavaScriptライブラリ
Blender	オープンソースの3Dモデリング・アニメーションソフト。3Dアセットの編集に広く利用
Polycam	スマートフォンで3Dスキャンができるアプリ。写真から3Dモデルを生成

音声AI

中項目	小項目	説明	キーワード / ツール
基礎理解	音声合成の仕組み	テキストから音声を生成する仕組みの基礎を理解する	`TTS`
	音声認識の仕組み	音声からテキストを変換する仕組みの基礎を理解する	`STT` `ASR`
	モデルの種類と特徴	音声合成・認識で使われる代表的なモデルやサービスの特徴を理解する	`Whisper` `ElevenLabs` `OpenAI TTS` `VOICEVOX` `RVC`
パラメータ・出力設計	音声パラメータ調整	話速、ピッチ、感情など音声出力のパラメータを調整する	`話速` `ピッチ`
	認識精度の調整	音声認識の精度を高めるためのコンテキストや語彙の設定を行う
	話者・感情の制御	話者の選択や感情表現の制御方法を理解する	`ボイスクローン` `感情合成`
実装	API連携	音声合成・認識APIを呼び出し、アプリケーションに組み込む	`ElevenLabs API` `OpenAI API`
	リアルタイム音声処理	マイク入力からのリアルタイム認識や、ストリーミング音声合成を実装する	`WebSocket` `ストリーミング` `Web Speech API`
	話者適応・LoRA	特定話者や音声スタイルに合わせたモデルの追加学習を理解する	`LoRA` `ボイスクローン`
品質評価	音声合成の評価	生成音声の自然性・明瞭度を評価する指標を理解する	`MOS` `PESQ` `STOI`
	音声認識の評価	音声認識の精度を評価する指標を理解する	`WER` `CER`
	話者認識の評価	話者識別・話者検証の精度を評価する指標を理解する	`EER` `話者類似度`
活用・応用	音声アシスタント	音声での対話や操作を可能にするアシスタントを実装する
	ナレーション生成	動画やスライドのナレーションを自動生成する	`VOICEVOX`
	音声変換（Voice Conversion）	ある話者の音声を別の話者のスタイルに変換する手法を理解する	`ボイスコンバージョン` `RVC`
	多言語音声	複数言語での音声合成・認識に活用する

よく使うツール / サービス

ツール名 / サービス名	説明
Whisper	OpenAIが開発した高精度な音声認識モデル。多言語対応でオープンソース
ElevenLabs	高品質な音声合成・ボイスクローンができるAIサービス。APIも提供
VOICEVOX	日本語に特化した無料の音声合成ソフト。ナレーション生成に広く利用
OpenAI TTS	OpenAIが提供するテキスト読み上げAPI。自然な音声合成が可能
RVC	Retrieval-based Voice Conversion。音声のスタイル変換に使われるオープンソースツール
Web Speech API	ブラウザ標準の音声認識・合成API。Webアプリでの音声機能実装に利用

音楽・サウンドAI

中項目	小項目	説明	キーワード / ツール
基礎理解	音楽生成の仕組み	AIが楽曲や効果音を生成する仕組みの基礎を理解する	`Transformer` `拡散モデル`
	モデルの種類と特徴	音楽生成で使われる代表的なモデルやサービスの特徴を理解する	`Suno` `Udio` `MusicGen` `Soundraw` `Stable Audio` `AIVA`
プロンプト・出力設計	音楽プロンプト設計	ジャンル、楽器、テンポ、ムードなどを指定して意図した楽曲を生成する	`ジャンル` `BPM` `楽器指定`
	出力形式・構成設計	楽曲の長さ、ループ設定、ファイル形式などを設計する	`MP3` `WAV` `MIDI`
実装	API連携	音楽生成APIを呼び出し、アプリケーションに組み込む	`Suno API` `ElevenLabs API`
	音楽データの処理・加工	生成した音楽ファイルの編集・変換・結合などの処理を実装する	`librosa` `pydub` `FFmpeg`
	リアルタイム音楽生成	ユーザー入力やセンサー情報に応じてリアルタイムに音楽を生成・制御する実装を行う	`Web Audio API` `Tone.js` `WebSocket`
	歌声合成の組み込み	歌声合成エンジンをアプリケーションに組み込み、歌声を動的に生成する	`SynthV API` `VOCALOID` `ACE Studio`
品質評価	音楽品質指標	生成楽曲の品質（音楽性・リズム精度・音質等）を評価する客観・主観指標を理解する	`FAD` `Inception Score` `MUSHRA`
活用・応用	BGM・効果音生成	映像や作品に合わせたBGMや効果音を生成する
	歌声合成	AIを用いて歌声を生成・合成する技術を活用する	`VOCALOID` `SynthV` `ACE Studio`
	インタラクティブ音楽	ユーザーの操作や状況に応じて動的に音楽を生成・変化させる	`Web Audio API` `Tone.js`
	楽曲制作補助	作曲のアイデア出しや編曲補助にAIを活用する	`AIVA` `DAW`

よく使うツール / サービス

ツール名 / サービス名	説明
Suno	テキストプロンプトから楽曲を生成するAIサービス。ボーカル付きの楽曲も生成可能
Udio	テキストから高品質な楽曲を生成するAIサービス。ジャンルやスタイルの指定が豊富
MusicGen	Metaが開発したオープンソースの音楽生成モデル。テキストやメロディから楽曲を生成
Stable Audio	Stability AIが提供する音楽・サウンド生成AI。効果音やBGMの生成に適する
VOCALOID	Yamahaが開発した歌声合成技術。歌唱表現の豊かなボーカル音声を生成
SynthV	高品質な歌声合成ができるソフトウェア。日本語・中国語・英語に対応
AIVA	映像・ゲーム向けBGM生成に強いAI作曲サービス。商用利用ライセンスも整備されている

映像AI

中項目	小項目	説明	キーワード / ツール
基礎理解	動画生成の仕組み	テキストや画像から動画を生成する仕組みの基礎を理解する	`Video Diffusion` `Transformer`
	リアルタイム映像処理の基礎	カメラ入力をリアルタイムに処理する仕組みの基礎を理解する
	モデルの種類と特徴	動画生成・処理で使われる代表的なモデルやサービスの特徴を理解する	`Runway` `Kling` `Pika` `Luma Dream Machine` `HeyGen`
プロンプト・出力設計	動画生成プロンプト	動画生成AIに意図した映像を出力させるプロンプトの書き方を設計する
	img2video	既存の画像を入力として動画を生成する手法を理解する	`img2video`
	カメラ・構図制御	カメラの動き、構図、アングルなど映像の構成をコントロールする	`カメラワーク` `パン` `ズーム`
	スタイル・雰囲気の指定	映像の画風、雰囲気、時間帯など表現の方向性を指定する
実装	API連携	動画生成・処理APIを呼び出し、アプリケーションに組み込む	`Runway API` `Kling API`
	映像処理パイプライン	映像の入力から出力までの処理の流れを構築する	`FFmpeg` `OpenCV`
	リアルタイム映像処理	カメラ入力を用いたリアルタイムの映像処理・変換を実装する	`OpenCV` `WebRTC`
品質評価	映像生成の評価	生成映像の品質（フレーム整合性・動き自然性・解像度等）を評価する手法を理解する	`FVD` `SSIM` `PSNR`
	DeepFake検出の評価	DeepFake・フェイク映像の検出精度を評価する指標を理解する	`AUC` `Accuracy` `F1スコア`
活用・応用	動画コンテンツ制作	プロモーション動画、アニメーション、ショート動画などの制作に活用する
	リップシンク・アバター	AIを使ってキャラクターや人物の口の動きを生成し、映像と音声を同期させる	`HeyGen` `D-ID`
	DeepFake・フェイススワップ	顔の入れ替えや映像変換技術の仕組みと活用方法を理解する	`DeepFake` `フェイススワップ`
	映像変換・編集	映像のスタイル変換、背景差し替え、解像度向上などに活用する	`Topaz Video AI` `EbSynth`

よく使うツール / サービス

ツール名 / サービス名	説明
Runway	動画生成・編集AIプラットフォーム。img2videoやスタイル変換など幅広い機能を提供
Kling	Kuaishouが開発した動画生成AI。高品質な映像生成が可能
Pika	テキストや画像から短い動画を生成するAIサービス
Luma Dream Machine	テキスト・画像から3D映像や動画を生成するAIサービス
HeyGen	リップシンク付きのアバター動画を生成できるAIサービス。多言語対応にも強い
FFmpeg	動画・音声の変換・編集を行うコマンドラインツール。映像処理パイプラインの基盤として広く利用

身体認識・センシングAI

中項目	小項目	説明	キーワード / ツール
基礎理解	骨格推定・姿勢検出の仕組み	カメラ映像から人体の骨格や姿勢を検出する仕組みを理解する	`Pose Estimation`
	顔認識・表情認識の仕組み	カメラ映像から顔を検出し、表情や感情を認識する仕組みを理解する	`顔認識` `表情認識` `DeepFace`
	モデルの種類と特徴	骨格推定・ジェスチャー認識で使われる代表的なモデルの特徴を理解する	`MediaPipe` `MoveNet` `OpenPose` `Rokoko`
	検出精度の基礎	検出の信頼度スコアや精度に影響する要因を理解する	`信頼度スコア`
	非接触センシングの仕組み	WiFiやレーダーなどの電波を用いてカメラなしに人の動き・姿勢・バイタルサインを検出する仕組みを理解する	`WiFiセンシング` `CSI` `RF-Pose`
検出・インタラクション設計	検出ポイント設定	どの部位を検出対象にするか、何をトリガーにするかを設計する	`ランドマーク`
	閾値設計	検出の感度や反応のタイミングを調整する閾値を設計する
	インタラクションのマッピング設計	検出結果をどのような操作や表現に結びつけるかを設計する
実装	MediaPipe等の組み込み	骨格推定・ジェスチャー認識のライブラリをアプリケーションに組み込む	`MediaPipe` `TensorFlow.js` `ml5.js`
	リアルタイム検出実装	カメラからの映像入力の取得・前処理と、リアルタイムの骨格推定・ジェスチャー認識を実装する	`WebRTC` `Canvas`
品質評価	骨格推定の評価	骨格推定・ポーズ推定の精度を評価する指標を理解する	`PCKh` `mAP` `OKS`
	顔・表情認識の評価	顔認識・表情認識の精度を評価する指標を理解する	`Rank-1 Accuracy` `感情クラス別Accuracy` `EER`
	センシング精度の評価	WiFiセンシングや非接触検出の測位・バイタル推定精度を評価する指標を理解する	`RMSE` `F1スコア`
活用・応用	インタラクティブ作品	身体の動きで操作・表現するインタラクティブアートやインスタレーションを制作する	`p5.js` `TouchDesigner`
	ジェスチャー操作	手話やハンドジェスチャーによる操作インターフェースを実装する
	モーションキャプチャ	身体の動きをキャラクターに反映するモーションキャプチャに活用する	`Rokoko`
	フィットネス・健康応用	姿勢判定や運動フォームチェックなど健康・フィットネス分野に活用する
	視線追跡（アイトラッキング）	視線の動きを検出し、UI操作や注視分析などに活用する	`Tobii` `WebGazer.js`
	WiFiセンシング・非接触検出	WiFiの電波を用いて壁越しの人物検出や呼吸・心拍のモニタリングなどに活用する	`WiFiセンシング` `バイタルサイン検知`

よく使うツール / サービス

ツール名 / サービス名	説明
MediaPipe	Googleが開発した骨格推定・ジェスチャー認識ライブラリ。Web・モバイル両対応
OpenPose	カーネギーメロン大学開発の骨格推定ライブラリ。高精度な全身推定が可能
TensorFlow.js	ブラウザ上で機械学習モデルを実行できるライブラリ。リアルタイム推定に活用
p5.js	クリエイティブコーディング向けのJavaScriptライブラリ。インタラクティブ作品の制作に適する
TouchDesigner	リアルタイムのインタラクティブメディア制作ソフト。映像・音・センサー入力の統合に強み
Rokoko	モーションキャプチャ向けのハードウェア／ソフトウェア群。身体動作をキャラクターへ反映できる
WebRTC	ブラウザ間でリアルタイム通信を実現する技術。カメラ映像の取得に利用

評価・品質管理

中項目	小項目	説明	キーワード / ツール
評価フレームワーク	評価指標の設計	AI出力の品質を測る指標を目的に応じて設計する
	ベンチマーク設計	定量的な評価基準とテストケースを設計し、継続的に計測できる仕組みを作る
	人間評価（ヒューマンエバリュエーション）	ユーザーや専門家によるAI出力の定性評価を設計・実施する	`RLHF`
ハルシネーション・誤生成検知	事実確認	テキスト生成での事実誤りや虚構を検知・確認する	`ファクトチェック`
	不適切出力の検知	有害、偏見、不適切な出力を検知する仕組みを理解する	`コンテンツフィルタリング`
	誤生成の対策	期待と異なる出力を防ぐ・修正する手法を理解する
安全性・バイアステスト	プロンプトインジェクション	悪意ある入力でAIの動作を乗っ取ろうとする攻撃の仕組みと対策を理解する	`プロンプトインジェクション`
	ジェイルブレイク対策	制約を回避しようとする入力パターンと防御策を理解する	`ガードレール`
	情報漏洩リスク	システムプロンプトや内部データが漏洩するリスクと対策を理解する
	有害出力の防止	暴力的、差別的、有害な出力を防ぐ仕組みを設計・確認する	`セーフティフィルター`
	偏り・バイアスの確認	出力に偏りやステレオタイプが含まれていないかを確認する
	利用規約遵守	各AIサービスの利用規約や制約を遵守しているかを確認する
安定性・再現性確認	出力ばらつきの確認	同一入力に対する出力のばらつきを確認し、安定性を評価する	`温度パラメータ` `シード値`
	エッジケースの確認	想定外の入力に対する挙動を確認する
	継続的品質確認	モデルの更新や環境変化に伴う品質変動を継続的に確認する

よく使うツール / サービス

ツール名 / サービス名	説明
Promptfoo	プロンプトの品質を自動テスト・比較評価するツール。複数モデルの横断比較も可能
LangSmith	LangChainの監視・デバッグ・評価プラットフォーム。トレースやフィードバック管理に活用
Langfuse	LLMアプリケーションの監視・評価プラットフォーム。オープンソースで利用可能
RAGAS	RAGシステムの評価指標を提供するフレームワーク。FaithfulnessやAnswer Relevanceを測定
Helicone	LLM APIの呼び出しログ・コスト・パフォーマンスを監視するプラットフォーム

インフラ・開発・運用

中項目	小項目	説明	キーワード / ツール
API・コスト管理	API選定	目的に合ったAI APIやモデルを選定する	`OpenAI API` `Anthropic API` `Google AI API`
	レート制限・クォータ管理	APIの呼び出し制限や利用量を管理し、安定した運用を図る	`レートリミット` `クォータ`
	コスト見積もり・最適化	API利用料を見積もり、コストを最適化する	`トークン課金` `使用量監視` `プロンプトキャッシュ` `バッチAPI`
開発環境・実装基盤	開発環境構築	AI開発に必要な環境を構築する	`Python` `Node.js` `Jupyter Notebook`
	フレームワーク選定	AI機能の実装に適したフレームワークやライブラリを選定する	`LangChain` `LlamaIndex`
	バージョン管理	プロンプトや設定の変更履歴を管理する	`Git`
	仮想環境管理	プロジェクトごとの依存関係を分離し、再現性のある環境を管理する	`venv` `uv` `conda`
	シークレット・環境変数管理	APIキーなどの機密情報をコードに埋め込まずに安全に管理する	`.env` `dotenv` `python-dotenv`
デプロイ・サービング	デプロイ方法	AI機能を組み込んだアプリケーションのデプロイ方法を理解する	`Vercel` `AWS` `Docker`
	モデルサービング	AIモデルをAPIとして提供・運用する方法を理解する	`FastAPI` `BentoML` `TorchServe`
	CI/CD	AIアプリケーションの継続的インテグレーション・デプロイを自動化する	`GitHub Actions` `CI/CD`
	スケーリング	利用増に応じたスケーリングとコスト管理を理解する	`Auto Scaling` `Kubernetes` `ロードバランサー`
プロンプト管理・バージョニング	プロンプトのバージョン管理	プロンプトをコードと同様に管理し、変更履歴・差分を追跡する	`Git` `LangSmith` `Promptfoo`
	プロンプトのテスト・評価	プロンプトの変更が出力品質に与える影響を自動テスト・比較評価する	`Promptfoo` `LangSmith`
監視・改善	ログ・メトリクス監視	APIの呼び出し状況、エラー率、レスポンス時間などを監視する	`Sentry` `CloudWatch` `Langfuse` `Helicone`
	プロンプト改善	出力品質やユーザーフィードバックに基づいてプロンプトを継続的に改善する	`Langfuse` `LangSmith`
	ユーザーフィードバック分析	ユーザーの反応や利用状況を分析し、改善に活かす	`Google Analytics`
	継続的改善	PDCAサイクルを回し、AI機能の品質と効率を継続的に向上させる	`PDCA` `A/Bテスト`

よく使うツール / サービス

ツール名 / サービス名	説明
Python	AI開発で最も広く使われるプログラミング言語。豊富なライブラリエコシステムを持つ
Jupyter Notebook	インタラクティブにコードを実行・可視化できる環境。データ分析やプロトタイピングに適する
LangChain	LLMアプリケーション開発フレームワーク。RAGやエージェント構築に活用
Docker	アプリケーションをコンテナ化するプラットフォーム。環境の再現性とデプロイの簡素化に貢献
GitHub Actions	GitHubのCI/CDサービス。テスト・デプロイの自動化に利用
Vercel	フロントエンド・サーバーレス関数のデプロイプラットフォーム。迅速な公開に適する

ローカルAI環境

中項目	小項目	説明	キーワード / ツール
基礎理解	ローカルLLMの概要	クラウドAPIと異なる、ローカル実行の特徴・利点・制約を理解する	`オープンソースモデル` `オフライン実行`
	クラウドAPIとの使い分け	コスト・プライバシー・速度・品質の観点で使い分けを判断する	`プライバシー` `コスト比較`
	ハードウェア要件	GPU・メモリ・ストレージ等の必要スペックを理解する	`VRAM` `RAM` `量子化`
環境構築	ローカルモデルの導入	ローカルでLLMを動かす環境を構築する	`Ollama` `LM Studio`
	モデルの選定・取得	目的に合ったオープンモデルを選定・ダウンロードする	`Llama` `Mistral` `Mixtral` `DeepSeek` `Qwen` `GLM` `Gemma` `Phi` `GPT-OSS` `Nemotron` `Falcon` `MiniMax` `Command R` `Grok` `Hugging Face`
	量子化・軽量化	限られたリソースでモデルを動かすための量子化・軽量化を理解する	`GGUF` `llama.cpp` `AWQ` `GPTQ` `4bit量子化`
活用・応用	ローカルAPIサーバー	ローカルモデルをAPIとして提供し、既存アプリと連携する	`Ollama API` `FastAPI`
	ローカルRAG	ローカルLLMとベクトルDBを組み合わせ、外部送信なしにRAGを構築する	`Chroma` `Ollama` `LlamaIndex`
	プライベートデータ活用	機密情報を外部送信せずにAIを活用する	`オフラインRAG` `社内データ`
	ローカルエージェント	ローカルLLMをバックエンドとしてエージェントを構築する	`Ollama` `LangChain`
	画像・音声のローカル実行	画像生成・音声認識等もローカルで実行する	`Stable Diffusion` `ComfyUI` `AUTOMATIC1111` `Whisper`

よく使うツール / サービス

ツール名 / サービス名	説明
Ollama	ローカルでLLMを簡単に実行できるツール。モデルのダウンロード・APIサーバー起動を一元管理
LM Studio	GUIでローカルLLMを管理・実行できるアプリ。モデルの検索・ダウンロード・チャットが可能
Hugging Face	オープンソースのAIモデル・データセットを共有するプラットフォーム。モデルの検索・ダウンロードに利用
ComfyUI	Stable DiffusionのノードベースUI。画像生成パイプラインを視覚的に構築・カスタマイズできる
llama.cpp	C++で実装されたLLM推論エンジン。GGUF形式の量子化モデルを高速に実行可能
FastAPI	高速なPython Webフレームワーク。AIモデルのAPIサーバー構築に広く利用

AI活用イントロダクション

AI活用用語集