本文へスキップ
SYRUP

AI活用ロードマップ

ロードマップ
AI活用

概要

AIの基礎理解からデータ設計、エージェント、テキスト・画像・音声・映像・3D、評価、運用、ローカル環境まで、AI活用に必要な知識と実践を体系的に整理した詳細ガイドです。

概要版はこちら

用語集はこちら

ダウンロード

内容

AIの基礎理解

中項目小項目説明キーワード / ツール
AIの概要AIの種類機械学習、深層学習、生成AIなどAIの分類とそれぞれの特徴を理解する機械学習 深層学習 生成AI
できること・できないことAIが得意なことと苦手なこと、現時点での限界を整理するハルシネーション
生成AIの仕組み生成AIがどのように出力を生み出すかの基礎的な仕組みを理解するTransformer Attention 次単語予測
各モダリティの位置づけテキスト・画像・音声・映像・身体認識それぞれの概要と得意領域、およびこれらを複合的に扱うマルチモーダルAIについて理解するGPT-4o Claude Gemini マルチモーダル
AIの使い方の分類ツールとして使う・APIで組み込む・モデルをカスタマイズするという3つの活用レイヤーを理解し、自分の目的に合った学習パスを選ぶツール利用 API連携 モデルカスタマイズ
主要モデルの選び方用途・コスト・データの扱いという3つの軸でモデルを選ぶ視点を理解するGPT Claude Gemini Kimi DeepSeek
主要ベンダーの特徴OpenAI、Anthropic、Google、中国系各社の特徴と立ち位置を整理するOpenAI Anthropic Google Kimi DeepSeek GLM Qwen
用語・概念整理基本用語の理解プロンプト、トークン、モデル、APIなどAI活用に必要な基本用語を理解するプロンプト トークン API
倫理・影響著作権・ライセンス・利用規約AI生成物の著作権、学習データのライセンス、各AIサービスの利用規約を確認し、適切に利用するクリエイティブコモンズ
バイアス・フェイクAIの出力に偏りや虚偽が含まれる可能性と、その影響を理解するハルシネーション ディープフェイク
情報漏洩・セキュリティAIサービスに入力した情報の扱いや、セキュリティ上の注意点を理解する
よく使うツール / サービス
ツール名 / サービス名説明
ChatGPTOpenAIが提供する対話型生成AIサービス。テキスト生成、要約、翻訳など幅広い用途で利用される
ClaudeAnthropicが提供する対話型生成AI。長文の理解や論理的推論に強みを持つ
GeminiGoogleが提供するマルチモーダル生成AI。テキスト・画像・音声などを統合的に扱える
KimiMoonshot AIが提供する対話型AI。長い文脈や大量PDFの読解に強みを持つ
DeepSeek中国発の生成AI。コード・数学・推論に強く、オープンモデル展開でも注目される
PerplexityAI検索エンジン。情報検索と要約を組み合わせた回答を提供する

データ・知識設計

中項目小項目説明キーワード / ツール
データ収集・整理データの収集方法AIに学習させる・参照させるデータの集め方を理解するHugging Face Datasets Kaggle
データ形式の整理テキスト、画像、音声など各モダリティに適したデータ形式を整理するJSON CSV Markdown
著作権・ライセンス確認使用するデータの著作権やライセンスを確認し、適切に利用する
データ前処理クリーニングノイズや不要なデータを除去し、AIに適した形に整える
正規化・フォーマット変換データをAIが処理しやすい形式に変換する
アノテーションデータに意味づけやラベル付けを行い、AIの学習・認識精度を高めるLabel Studio
ナレッジベース設計RAG用データの構造化検索・参照しやすい形にデータを構造化するチャンク分割 ベクトル化
メタデータ設計データの属性や分類情報を設計し、検索精度を高める
インデックス・検索設計ナレッジベースから必要な情報を効率的に検索・取得する仕組みを設計するベクトル検索 セマンティック検索 Chroma Pinecone
コンテキスト設計コンテキストの選択・構造化モデルが一度に処理できる情報量(コンテキストウィンドウ)の制限を考慮しながら、必要な情報を選択・構造化してAIに渡す設計を行うコンテキストウィンドウ
よく使うツール / サービス
ツール名 / サービス名説明
Hugging Face Datasets機械学習用の公開データセットを検索・ダウンロードできるプラットフォーム
Kaggleデータサイエンスのコンペティションやデータセットを提供するプラットフォーム
Label Studio画像・テキスト・音声など多様なデータのアノテーション作業を支援するツール
Chromaオープンソースのベクトルデータベース。RAG構築で埋め込みベクトルの保存・検索に使われる
Pineconeマネージド型のベクトルデータベースサービス。大規模なセマンティック検索に適する

エージェント・ツール呼び出し

中項目小項目説明キーワード / ツール
基礎理解エージェントの概念LLMが自律的に判断・行動するエージェントの仕組みを理解するReAct CoT
ツール呼び出しLLMが外部ツールやAPIを呼び出す仕組みを理解するFunction Calling Tool Use
メモリ・状態管理エージェントが会話履歴や作業の進捗などの状態を保持・参照する仕組みを理解する短期メモリ 長期メモリ
マルチエージェントの概念複数エージェントが協調して動作する仕組みを理解するオーケストレーター サブエージェント
設計エージェント・ツール設計エージェントの目的・制約・ツールセットを定義し、呼び出すツールの仕様を設計する
実装エージェントフレームワークエージェント実装を支援するフレームワークを活用するLangChain AutoGen CrewAI
Function Calling実装LLM APIのツール呼び出し機能を直接実装するOpenAI API Anthropic API
MCPサーバーModel Context Protocolを用いたツール連携を実装するMCP
品質評価エージェント評価指標エージェントの動作品質を定量的に評価する手法を理解するタスク完了率 ツール選択精度 トークン効率
活用・応用タスク自動化エージェント複数ステップのタスクをエージェントで自動化する
RAGエージェントナレッジベース検索をツールとして持つエージェントを実装するLlamaIndex Haystack
マルチモーダルエージェント画像・音声入力を扱うエージェントを実装するGPT-4o Gemini
マルチモーダル統合パターンテキスト・画像・音声を組み合わせたアプリケーションの設計パターンを理解し実装するGPT-4o Gemini Claude
ノーコード・ローコードAIワークフローコードを書かずにAI機能を組み合わせたワークフローを構築するツールを活用するn8n Make Dify Coze
よく使うツール / サービス
ツール名 / サービス名説明
LangChainLLMを利用したアプリケーション・エージェント開発を支援するフレームワーク
AutoGenマルチエージェント対話を構築できるMicrosoft発のフレームワーク
CrewAI複数エージェントの協調作業を定義・実行できるフレームワーク
n8nオープンソースのワークフロー自動化ツール。AI連携も可能
DifyLLMアプリケーションをノーコードで構築・運用できるプラットフォーム
MCPModel Context Protocol。AIモデルと外部ツールの連携を標準化するプロトコル

テキストAI

中項目小項目説明キーワード / ツール
基礎理解LLMの仕組み大規模言語モデルがテキストを生成する仕組みの基礎を理解するTransformer
トークン・コンテキストウィンドウトークンの概念とコンテキストウィンドウの制限を理解するトークン コンテキストウィンドウ
モデルの種類と特徴GPT、Claude、Geminiなど代表的なモデルの特徴と使い分けを理解するGPT Claude Gemini Kimi DeepSeek LLM
プロンプト設計基本プロンプト設計AIに意図した出力を得るための指示の書き方を設計するプロンプトエンジニアリング
システムプロンプトAIの役割や振る舞いを定義する指示を設計するシステムプロンプト
Few-shot・出力フォーマット制御例示やフォーマット指定で出力をコントロールする手法を理解するFew-shot JSON出力
実装API連携LLMのAPIを呼び出し、アプリケーションに組み込むOpenAI API Anthropic API
対話フロー実装ユーザーとAIの対話の流れを実装するストリーミング 会話履歴管理
RAG組み込みナレッジベースを参照して回答を生成する仕組みを組み込むRAG ベクトルデータベース
ファインチューニング・LoRA特定ドメインや用途に合わせてモデルを追加学習するLoRA PEFT ファインチューニング Hugging Face
品質評価テキスト生成の評価翻訳・要約・文章生成の品質を定量的に評価する指標を理解するBLEU ROUGE BERTScore Perplexity
RAG・検索の評価RAGシステムの回答精度・検索品質を評価する手法を理解するRAGAS Faithfulness Answer Relevance Context Precision
コード生成の評価コード生成の正確性・実行可能性を評価する指標を理解するpass@k CodeBLEU
活用・応用チャットボットユーザーの質問に回答する対話型AIを実装するChatGPT
文章生成・要約・翻訳長文の生成、文章の要約、多言語への翻訳などを実装する
コード生成・補助コードの生成、補完、レビューなどにAIを活用するGitHub Copilot Cursor Codex Claude Code
構造化データ抽出非構造化テキストからJSON等の構造化データを取り出す手法を活用するJSON
よく使うツール / サービス
ツール名 / サービス名説明
OpenAI APIGPT-4などのテキスト生成モデルをAPIで利用できるサービス
Anthropic APIClaudeモデルをAPIで利用できるサービス
ChatGPT対話形式で文章生成・要約・壁打ちができる代表的な生成AIサービス
Claude長文読解や推論に強い対話型生成AIサービス
GeminiGoogleのマルチモーダル生成AIサービス
Hugging Faceオープンソースモデルの共有・ダウンロードプラットフォーム。ファインチューニングにも利用
GitHub Copilotコード補完・生成を行うAIアシスタント。IDE統合で開発フローに組み込める
CursorAIコーディング支援機能を統合したコードエディタ
CodexOpenAIの開発者向けコード生成・補助系モデル/製品群
LangChainLLMアプリケーション開発フレームワーク。RAGやエージェント構築に活用

画像AI

中項目小項目説明キーワード / ツール
基礎理解画像生成の仕組み拡散モデルなど画像生成の基礎的な仕組みを理解する拡散モデル ノイズ除去 Stable Diffusion
画像認識の仕組み画像から情報を検出・分類する仕組みを理解する物体検出 画像分類
モデルの種類と特徴画像生成・認識で使われる代表的なモデルの特徴を理解するDALL-E Midjourney Stable Diffusion Flux Adobe Firefly
プロンプト・出力設計画像生成プロンプト画像生成AIに意図した画像を出力させるプロンプトの書き方を設計する
img2img既存の画像を入力として、プロンプトや強度パラメータを組み合わせて新しい画像を生成する手法を理解するimg2img 強度(strength)
参照画像・IPアダプター既存の画像のスタイルやキャラクターを参照しながら新しい画像を生成する手法を理解するIPアダプター 参照画像
スタイル制御・LoRA画風、構図、色調など出力画像のスタイルをコントロールする。LoRAを用いた追加学習も含むスタイルプロンプト LoRA ControlNet
ネガティブプロンプト・パラメータ出力したくない要素の指定や、シード値などのパラメータを活用するネガティブプロンプト シード値 CFGスケール
実装API連携画像生成・認識APIを呼び出し、アプリケーションに組み込むOpenAI API Stability AI API Replicate
画像処理パイプライン画像の入力から出力までの処理の流れを構築するPillow OpenCV
セグメンテーション画像内の特定領域を検出・分離する技術を実装する。Inpaintingの前処理などに活用されるSAM セグメンテーション
画像認識の組み込み画像認識機能をアプリケーションに組み込むYOLO CLIP
品質評価生成画像の評価生成画像の品質を定量的に評価する手法を理解し、大量生成時の品質管理に活用するFID CLIPScore IS
物体検出の評価物体検出モデルの精度を評価する指標を理解するmAP IoU Precision Recall
セグメンテーションの評価セグメンテーション結果の精度を評価する指標を理解するmIoU Dice係数
活用・応用コンテンツ制作バナー、アイキャッチ、イラストなどコンテンツの画像生成に活用するAdobe Firefly Canva
画像編集・変換既存画像のスタイル変換、部分修正、解像度向上などに活用するInpainting Upscaling
キャラクター・一貫性の維持同じキャラクターや人物を複数の画像で一貫して生成するための手法を理解するLoRA IPアダプター
インタラクションへの組み込みユーザー入力に応じた画像生成や、画像認識を用いたインタラクションを実装する
よく使うツール / サービス
ツール名 / サービス名説明
Midjourneyテキストプロンプトから高品質な画像を生成するAIサービス。芸術的な表現に強み
DALL-EOpenAIが提供する画像生成AI。テキストから自然な画像を生成できる
Stable Diffusionオープンソースの画像生成モデル。LoRAやControlNetによるカスタマイズが可能
Adobe FireflyAdobeの画像生成AI。商用利用に配慮した学習データで安全に利用できる
ComfyUIStable DiffusionのノードベースUI。画像生成パイプラインを視覚的に構築・カスタマイズできる
Replicate様々なAIモデルをAPIで利用できるプラットフォーム。画像・音声・映像など幅広く対応

3D・空間AI

中項目小項目説明キーワード / ツール
基礎理解3D生成の仕組みテキストや画像から3Dモデルを生成する仕組みの基礎を理解するNeRF 3D Gaussian Splatting
点群の概念3D空間を点の集合で表現する点群データの構造と特徴を理解する点群 深度カメラ LiDAR Intel RealSense iPhone LiDAR Azure Kinect
モデルの種類と特徴3D生成で使われる代表的なモデルやサービスの特徴を理解するTripo3D Meshy Shap-E Luma AI Polycam
入力・出力設計入力形式の選択テキスト・1枚画像・複数画像・動画など、目的に応じた入力形式を選択する
出力形式の設計用途に合った3Dモデルの出力フォーマットを選択するGLB OBJ FBX USDZ STL
テクスチャ・マテリアル設計3Dモデルの質感・色・反射などのマテリアルを設定し、リアリティや表現を高めるPBR UV展開
実装API連携3D生成APIを呼び出し、アプリケーションに組み込むTripo3D API Meshy API
点群処理点群データの取得・変換・処理を実装するOpen3D PCL CloudCompare Potree
Web3D組み込み生成した3DモデルをWebやアプリに表示・活用するThree.js WebGL model-viewer
品質評価3D生成の評価生成した3Dモデルの形状精度を定量的に評価する指標を理解するChamfer Distance EMD FID-3D
空間再構成の評価NeRFや3D Gaussian Splattingによる空間再構成の品質を評価する指標を理解するPSNR SSIM LPIPS
活用・応用ゲーム・VRアセット生成ゲームやVR/AR向けの3Dアセットをテキストや画像から生成するUnity Unreal Engine Blender
3Dスキャン・空間再構成リアル空間を撮影し、3Dデータとして再構成するLuma AI Polycam
AR/MR応用生成した3Dモデルを拡張現実・複合現実空間に重ねて活用するWebXR ARKit ARCore
インタラクティブ3D作品生成した3Dモデルをインタラクティブな作品や展示に活用するThree.js React Three Fiber
よく使うツール / サービス
ツール名 / サービス名説明
Tripo3Dテキストや画像から3Dモデルを生成するサービス。APIも提供
Meshyテキスト・画像から3Dモデルを生成するAIサービス。テクスチャ生成も可能
Luma AI画像や動画から3Dシーンを再構成するサービス。NeRF技術を活用
Three.jsWebブラウザ上で3Dグラフィックスを描画するJavaScriptライブラリ
Blenderオープンソースの3Dモデリング・アニメーションソフト。3Dアセットの編集に広く利用
Polycamスマートフォンで3Dスキャンができるアプリ。写真から3Dモデルを生成

音声AI

中項目小項目説明キーワード / ツール
基礎理解音声合成の仕組みテキストから音声を生成する仕組みの基礎を理解するTTS
音声認識の仕組み音声からテキストを変換する仕組みの基礎を理解するSTT ASR
モデルの種類と特徴音声合成・認識で使われる代表的なモデルやサービスの特徴を理解するWhisper ElevenLabs OpenAI TTS VOICEVOX RVC
パラメータ・出力設計音声パラメータ調整話速、ピッチ、感情など音声出力のパラメータを調整する話速 ピッチ
認識精度の調整音声認識の精度を高めるためのコンテキストや語彙の設定を行う
話者・感情の制御話者の選択や感情表現の制御方法を理解するボイスクローン 感情合成
実装API連携音声合成・認識APIを呼び出し、アプリケーションに組み込むElevenLabs API OpenAI API
リアルタイム音声処理マイク入力からのリアルタイム認識や、ストリーミング音声合成を実装するWebSocket ストリーミング Web Speech API
話者適応・LoRA特定話者や音声スタイルに合わせたモデルの追加学習を理解するLoRA ボイスクローン
品質評価音声合成の評価生成音声の自然性・明瞭度を評価する指標を理解するMOS PESQ STOI
音声認識の評価音声認識の精度を評価する指標を理解するWER CER
話者認識の評価話者識別・話者検証の精度を評価する指標を理解するEER 話者類似度
活用・応用音声アシスタント音声での対話や操作を可能にするアシスタントを実装する
ナレーション生成動画やスライドのナレーションを自動生成するVOICEVOX
音声変換(Voice Conversion)ある話者の音声を別の話者のスタイルに変換する手法を理解するボイスコンバージョン RVC
多言語音声複数言語での音声合成・認識に活用する
よく使うツール / サービス
ツール名 / サービス名説明
WhisperOpenAIが開発した高精度な音声認識モデル。多言語対応でオープンソース
ElevenLabs高品質な音声合成・ボイスクローンができるAIサービス。APIも提供
VOICEVOX日本語に特化した無料の音声合成ソフト。ナレーション生成に広く利用
OpenAI TTSOpenAIが提供するテキスト読み上げAPI。自然な音声合成が可能
RVCRetrieval-based Voice Conversion。音声のスタイル変換に使われるオープンソースツール
Web Speech APIブラウザ標準の音声認識・合成API。Webアプリでの音声機能実装に利用

音楽・サウンドAI

中項目小項目説明キーワード / ツール
基礎理解音楽生成の仕組みAIが楽曲や効果音を生成する仕組みの基礎を理解するTransformer 拡散モデル
モデルの種類と特徴音楽生成で使われる代表的なモデルやサービスの特徴を理解するSuno Udio MusicGen Soundraw Stable Audio AIVA
プロンプト・出力設計音楽プロンプト設計ジャンル、楽器、テンポ、ムードなどを指定して意図した楽曲を生成するジャンル BPM 楽器指定
出力形式・構成設計楽曲の長さ、ループ設定、ファイル形式などを設計するMP3 WAV MIDI
実装API連携音楽生成APIを呼び出し、アプリケーションに組み込むSuno API ElevenLabs API
音楽データの処理・加工生成した音楽ファイルの編集・変換・結合などの処理を実装するlibrosa pydub FFmpeg
リアルタイム音楽生成ユーザー入力やセンサー情報に応じてリアルタイムに音楽を生成・制御する実装を行うWeb Audio API Tone.js WebSocket
歌声合成の組み込み歌声合成エンジンをアプリケーションに組み込み、歌声を動的に生成するSynthV API VOCALOID ACE Studio
品質評価音楽品質指標生成楽曲の品質(音楽性・リズム精度・音質等)を評価する客観・主観指標を理解するFAD Inception Score MUSHRA
活用・応用BGM・効果音生成映像や作品に合わせたBGMや効果音を生成する
歌声合成AIを用いて歌声を生成・合成する技術を活用するVOCALOID SynthV ACE Studio
インタラクティブ音楽ユーザーの操作や状況に応じて動的に音楽を生成・変化させるWeb Audio API Tone.js
楽曲制作補助作曲のアイデア出しや編曲補助にAIを活用するAIVA DAW
よく使うツール / サービス
ツール名 / サービス名説明
Sunoテキストプロンプトから楽曲を生成するAIサービス。ボーカル付きの楽曲も生成可能
Udioテキストから高品質な楽曲を生成するAIサービス。ジャンルやスタイルの指定が豊富
MusicGenMetaが開発したオープンソースの音楽生成モデル。テキストやメロディから楽曲を生成
Stable AudioStability AIが提供する音楽・サウンド生成AI。効果音やBGMの生成に適する
VOCALOIDYamahaが開発した歌声合成技術。歌唱表現の豊かなボーカル音声を生成
SynthV高品質な歌声合成ができるソフトウェア。日本語・中国語・英語に対応
AIVA映像・ゲーム向けBGM生成に強いAI作曲サービス。商用利用ライセンスも整備されている

映像AI

中項目小項目説明キーワード / ツール
基礎理解動画生成の仕組みテキストや画像から動画を生成する仕組みの基礎を理解するVideo Diffusion Transformer
リアルタイム映像処理の基礎カメラ入力をリアルタイムに処理する仕組みの基礎を理解する
モデルの種類と特徴動画生成・処理で使われる代表的なモデルやサービスの特徴を理解するRunway Kling Pika Luma Dream Machine HeyGen
プロンプト・出力設計動画生成プロンプト動画生成AIに意図した映像を出力させるプロンプトの書き方を設計する
img2video既存の画像を入力として動画を生成する手法を理解するimg2video
カメラ・構図制御カメラの動き、構図、アングルなど映像の構成をコントロールするカメラワーク パン ズーム
スタイル・雰囲気の指定映像の画風、雰囲気、時間帯など表現の方向性を指定する
実装API連携動画生成・処理APIを呼び出し、アプリケーションに組み込むRunway API Kling API
映像処理パイプライン映像の入力から出力までの処理の流れを構築するFFmpeg OpenCV
リアルタイム映像処理カメラ入力を用いたリアルタイムの映像処理・変換を実装するOpenCV WebRTC
品質評価映像生成の評価生成映像の品質(フレーム整合性・動き自然性・解像度等)を評価する手法を理解するFVD SSIM PSNR
DeepFake検出の評価DeepFake・フェイク映像の検出精度を評価する指標を理解するAUC Accuracy F1スコア
活用・応用動画コンテンツ制作プロモーション動画、アニメーション、ショート動画などの制作に活用する
リップシンク・アバターAIを使ってキャラクターや人物の口の動きを生成し、映像と音声を同期させるHeyGen D-ID
DeepFake・フェイススワップ顔の入れ替えや映像変換技術の仕組みと活用方法を理解するDeepFake フェイススワップ
映像変換・編集映像のスタイル変換、背景差し替え、解像度向上などに活用するTopaz Video AI EbSynth
よく使うツール / サービス
ツール名 / サービス名説明
Runway動画生成・編集AIプラットフォーム。img2videoやスタイル変換など幅広い機能を提供
KlingKuaishouが開発した動画生成AI。高品質な映像生成が可能
Pikaテキストや画像から短い動画を生成するAIサービス
Luma Dream Machineテキスト・画像から3D映像や動画を生成するAIサービス
HeyGenリップシンク付きのアバター動画を生成できるAIサービス。多言語対応にも強い
FFmpeg動画・音声の変換・編集を行うコマンドラインツール。映像処理パイプラインの基盤として広く利用

身体認識・センシングAI

中項目小項目説明キーワード / ツール
基礎理解骨格推定・姿勢検出の仕組みカメラ映像から人体の骨格や姿勢を検出する仕組みを理解するPose Estimation
顔認識・表情認識の仕組みカメラ映像から顔を検出し、表情や感情を認識する仕組みを理解する顔認識 表情認識 DeepFace
モデルの種類と特徴骨格推定・ジェスチャー認識で使われる代表的なモデルの特徴を理解するMediaPipe MoveNet OpenPose Rokoko
検出精度の基礎検出の信頼度スコアや精度に影響する要因を理解する信頼度スコア
非接触センシングの仕組みWiFiやレーダーなどの電波を用いてカメラなしに人の動き・姿勢・バイタルサインを検出する仕組みを理解するWiFiセンシング CSI RF-Pose
検出・インタラクション設計検出ポイント設定どの部位を検出対象にするか、何をトリガーにするかを設計するランドマーク
閾値設計検出の感度や反応のタイミングを調整する閾値を設計する
インタラクションのマッピング設計検出結果をどのような操作や表現に結びつけるかを設計する
実装MediaPipe等の組み込み骨格推定・ジェスチャー認識のライブラリをアプリケーションに組み込むMediaPipe TensorFlow.js ml5.js
リアルタイム検出実装カメラからの映像入力の取得・前処理と、リアルタイムの骨格推定・ジェスチャー認識を実装するWebRTC Canvas
品質評価骨格推定の評価骨格推定・ポーズ推定の精度を評価する指標を理解するPCKh mAP OKS
顔・表情認識の評価顔認識・表情認識の精度を評価する指標を理解するRank-1 Accuracy 感情クラス別Accuracy EER
センシング精度の評価WiFiセンシングや非接触検出の測位・バイタル推定精度を評価する指標を理解するRMSE F1スコア
活用・応用インタラクティブ作品身体の動きで操作・表現するインタラクティブアートやインスタレーションを制作するp5.js TouchDesigner
ジェスチャー操作手話やハンドジェスチャーによる操作インターフェースを実装する
モーションキャプチャ身体の動きをキャラクターに反映するモーションキャプチャに活用するRokoko
フィットネス・健康応用姿勢判定や運動フォームチェックなど健康・フィットネス分野に活用する
視線追跡(アイトラッキング)視線の動きを検出し、UI操作や注視分析などに活用するTobii WebGazer.js
WiFiセンシング・非接触検出WiFiの電波を用いて壁越しの人物検出や呼吸・心拍のモニタリングなどに活用するWiFiセンシング バイタルサイン検知
よく使うツール / サービス
ツール名 / サービス名説明
MediaPipeGoogleが開発した骨格推定・ジェスチャー認識ライブラリ。Web・モバイル両対応
OpenPoseカーネギーメロン大学開発の骨格推定ライブラリ。高精度な全身推定が可能
TensorFlow.jsブラウザ上で機械学習モデルを実行できるライブラリ。リアルタイム推定に活用
p5.jsクリエイティブコーディング向けのJavaScriptライブラリ。インタラクティブ作品の制作に適する
TouchDesignerリアルタイムのインタラクティブメディア制作ソフト。映像・音・センサー入力の統合に強み
Rokokoモーションキャプチャ向けのハードウェア/ソフトウェア群。身体動作をキャラクターへ反映できる
WebRTCブラウザ間でリアルタイム通信を実現する技術。カメラ映像の取得に利用

評価・品質管理

中項目小項目説明キーワード / ツール
評価フレームワーク評価指標の設計AI出力の品質を測る指標を目的に応じて設計する
ベンチマーク設計定量的な評価基準とテストケースを設計し、継続的に計測できる仕組みを作る
人間評価(ヒューマンエバリュエーション)ユーザーや専門家によるAI出力の定性評価を設計・実施するRLHF
ハルシネーション・誤生成検知事実確認テキスト生成での事実誤りや虚構を検知・確認するファクトチェック
不適切出力の検知有害、偏見、不適切な出力を検知する仕組みを理解するコンテンツフィルタリング
誤生成の対策期待と異なる出力を防ぐ・修正する手法を理解する
安全性・バイアステストプロンプトインジェクション悪意ある入力でAIの動作を乗っ取ろうとする攻撃の仕組みと対策を理解するプロンプトインジェクション
ジェイルブレイク対策制約を回避しようとする入力パターンと防御策を理解するガードレール
情報漏洩リスクシステムプロンプトや内部データが漏洩するリスクと対策を理解する
有害出力の防止暴力的、差別的、有害な出力を防ぐ仕組みを設計・確認するセーフティフィルター
偏り・バイアスの確認出力に偏りやステレオタイプが含まれていないかを確認する
利用規約遵守各AIサービスの利用規約や制約を遵守しているかを確認する
安定性・再現性確認出力ばらつきの確認同一入力に対する出力のばらつきを確認し、安定性を評価する温度パラメータ シード値
エッジケースの確認想定外の入力に対する挙動を確認する
継続的品質確認モデルの更新や環境変化に伴う品質変動を継続的に確認する
よく使うツール / サービス
ツール名 / サービス名説明
Promptfooプロンプトの品質を自動テスト・比較評価するツール。複数モデルの横断比較も可能
LangSmithLangChainの監視・デバッグ・評価プラットフォーム。トレースやフィードバック管理に活用
LangfuseLLMアプリケーションの監視・評価プラットフォーム。オープンソースで利用可能
RAGASRAGシステムの評価指標を提供するフレームワーク。FaithfulnessやAnswer Relevanceを測定
HeliconeLLM APIの呼び出しログ・コスト・パフォーマンスを監視するプラットフォーム

インフラ・開発・運用

中項目小項目説明キーワード / ツール
API・コスト管理API選定目的に合ったAI APIやモデルを選定するOpenAI API Anthropic API Google AI API
レート制限・クォータ管理APIの呼び出し制限や利用量を管理し、安定した運用を図るレートリミット クォータ
コスト見積もり・最適化API利用料を見積もり、コストを最適化するトークン課金 使用量監視 プロンプトキャッシュ バッチAPI
開発環境・実装基盤開発環境構築AI開発に必要な環境を構築するPython Node.js Jupyter Notebook
フレームワーク選定AI機能の実装に適したフレームワークやライブラリを選定するLangChain LlamaIndex
バージョン管理プロンプトや設定の変更履歴を管理するGit
仮想環境管理プロジェクトごとの依存関係を分離し、再現性のある環境を管理するvenv uv conda
シークレット・環境変数管理APIキーなどの機密情報をコードに埋め込まずに安全に管理する.env dotenv python-dotenv
デプロイ・サービングデプロイ方法AI機能を組み込んだアプリケーションのデプロイ方法を理解するVercel AWS Docker
モデルサービングAIモデルをAPIとして提供・運用する方法を理解するFastAPI BentoML TorchServe
CI/CDAIアプリケーションの継続的インテグレーション・デプロイを自動化するGitHub Actions CI/CD
スケーリング利用増に応じたスケーリングとコスト管理を理解するAuto Scaling Kubernetes ロードバランサー
プロンプト管理・バージョニングプロンプトのバージョン管理プロンプトをコードと同様に管理し、変更履歴・差分を追跡するGit LangSmith Promptfoo
プロンプトのテスト・評価プロンプトの変更が出力品質に与える影響を自動テスト・比較評価するPromptfoo LangSmith
監視・改善ログ・メトリクス監視APIの呼び出し状況、エラー率、レスポンス時間などを監視するSentry CloudWatch Langfuse Helicone
プロンプト改善出力品質やユーザーフィードバックに基づいてプロンプトを継続的に改善するLangfuse LangSmith
ユーザーフィードバック分析ユーザーの反応や利用状況を分析し、改善に活かすGoogle Analytics
継続的改善PDCAサイクルを回し、AI機能の品質と効率を継続的に向上させるPDCA A/Bテスト
よく使うツール / サービス
ツール名 / サービス名説明
PythonAI開発で最も広く使われるプログラミング言語。豊富なライブラリエコシステムを持つ
Jupyter Notebookインタラクティブにコードを実行・可視化できる環境。データ分析やプロトタイピングに適する
LangChainLLMアプリケーション開発フレームワーク。RAGやエージェント構築に活用
Dockerアプリケーションをコンテナ化するプラットフォーム。環境の再現性とデプロイの簡素化に貢献
GitHub ActionsGitHubのCI/CDサービス。テスト・デプロイの自動化に利用
Vercelフロントエンド・サーバーレス関数のデプロイプラットフォーム。迅速な公開に適する

ローカルAI環境

中項目小項目説明キーワード / ツール
基礎理解ローカルLLMの概要クラウドAPIと異なる、ローカル実行の特徴・利点・制約を理解するオープンソースモデル オフライン実行
クラウドAPIとの使い分けコスト・プライバシー・速度・品質の観点で使い分けを判断するプライバシー コスト比較
ハードウェア要件GPU・メモリ・ストレージ等の必要スペックを理解するVRAM RAM 量子化
環境構築ローカルモデルの導入ローカルでLLMを動かす環境を構築するOllama LM Studio
モデルの選定・取得目的に合ったオープンモデルを選定・ダウンロードするLlama Mistral Mixtral DeepSeek Qwen GLM Gemma Phi GPT-OSS Nemotron Falcon MiniMax Command R Grok Hugging Face
量子化・軽量化限られたリソースでモデルを動かすための量子化・軽量化を理解するGGUF llama.cpp AWQ GPTQ 4bit量子化
活用・応用ローカルAPIサーバーローカルモデルをAPIとして提供し、既存アプリと連携するOllama API FastAPI
ローカルRAGローカルLLMとベクトルDBを組み合わせ、外部送信なしにRAGを構築するChroma Ollama LlamaIndex
プライベートデータ活用機密情報を外部送信せずにAIを活用するオフラインRAG 社内データ
ローカルエージェントローカルLLMをバックエンドとしてエージェントを構築するOllama LangChain
画像・音声のローカル実行画像生成・音声認識等もローカルで実行するStable Diffusion ComfyUI AUTOMATIC1111 Whisper
よく使うツール / サービス
ツール名 / サービス名説明
OllamaローカルでLLMを簡単に実行できるツール。モデルのダウンロード・APIサーバー起動を一元管理
LM StudioGUIでローカルLLMを管理・実行できるアプリ。モデルの検索・ダウンロード・チャットが可能
Hugging FaceオープンソースのAIモデル・データセットを共有するプラットフォーム。モデルの検索・ダウンロードに利用
ComfyUIStable DiffusionのノードベースUI。画像生成パイプラインを視覚的に構築・カスタマイズできる
llama.cppC++で実装されたLLM推論エンジン。GGUF形式の量子化モデルを高速に実行可能
FastAPI高速なPython Webフレームワーク。AIモデルのAPIサーバー構築に広く利用