1978件の用語
Reinforcement Learning from Human Feedbackの略。人間の評価・比較データを報酬信号としてLLMを強化学習で最適化し、有害出力を減らし人間の好みに沿った応答を生成させる手法。
2017年Christiano et al. + OpenAI発表RLHF paper・Industry-leading Reinforcement Learning from Human Feedback paradigm Pioneer + Industry-leading ChatGPT + GPT-4 alignment foundation + Industry-leading 7年heritage Alignment Pioneer。
LLM Alignment+Post-Training。RLHF Reinforcement Learning from Human Feedback (PPO・OpenAI ChatGPT)・DPO Direct Preference Optimization (Stanford 2023)・RLAIF Reinforcement Learning from AI Feedback (Anthropic Constitutional AI)・GRPO Group Relative Policy Optimization (DeepSeek R1)・KTO Kahneman-Tversky Optimization・SimPO・Online DPO・Iterative DPO・SFT Supervised Fine-Tuning・Reward Model RM・¥0 OSS、2026年GRPO Reasoning訓練主流。
RLHFとConstitutional AIを組み合わせたアライメント手法。人間フィードバックで価値観の大枠を確立し、CAIの自己批判サイクルでスケールアップと特定ドメインの安全性を向上させる現実的なハイブリッドアプローチ。
人間フィードバックからの強化学習(RLHF)を用い、LLMを有益・無害・正直な方向に誘導する安全性調整技術。
LLMアライメント訓練手法。RLHF(Reward Model+PPO)・DPO(Direct Preference Optimization・OpenAI)・GRPO(Group Relative Policy Optimization・DeepSeek R1採用)・ORPO(Odds Ratio)・SimPO・KTO(Kahneman-Tversky)・IPO・SLiC-HF・RLAIF(AI feedback)・Constitutional AI(Anthropic)代表、2026年GRPO主流化・推論能力強化用。
人間フィードバックによる強化学習。人間の選好データで報酬モデルを訓練し、そのモデルを使いPPOでLLMをファインチューニングする手法。ChatGPT・Claude・Geminiなど主要LLMのアライメントに広く採用される。
検証可能な報酬関数のみを使用してLLMを強化学習する枠組み。数学の正誤判定やコード実行結果など決定論的に検証できる報酬を用い、報酬モデルの誤り(ハッキング)を排除してスケーラブルな訓練を実現する。
BlinkDLが開発したRNN系LLMアーキテクチャ。学習はTransformerと同じ並列処理、推論はRNN再帰で定数メモリを実現する。RWKV-6-14BはLlama 2と競合し、rwkv.cppでCPU単体動作も可能。
2023年Bo Peng (個人開発者・EleutherAI community-driven Open-source) 発表RWKV paper・Industry-emerging Linear RNN attention architecture・Industry-emerging Receptance Weighted Key Value RNN + Industry-leading Linear-time RNN attention paradigm Pioneer + Industry-emerging Transformer alternative + Industry-emerging Linear RNN paradigm Pioneer + Industry-leading EleutherAI community-driven Open-source brand backing・Industry-leading RWKV-7 2024年Q4 successor + Industry-leading RWKV evolution。
BlinkDL開発のRNN-LLMシリーズ第7世代。Delta Rule WKV演算子によりO(1)推論メモリを実現しつつ、Transformerに匹敵する性能を示す。0.1B〜7BモデルがApache 2.0で公開。
RPA Robotic Process Automation 25年史 2001-2026。Blue Prism (2001 Britain Alastair Bathgate+David Moss・Process Studio・Mainframe Automation祖)・Automation Anywhere (2003 Mihir Shukla India SF・100k Customer 2024)・UiPath (2005 Ploiești Romania Daniel Dines+Marius Tirca→2017 IPO $35B Peak Bubble・Studio+Orchestrator+Robot)・Microsoft Power Automate Desktop (2018 旧 Softomotive買収・Win 11 Bundled FREE・$15/User/月 Cloud)+Power Automate (cloud)・Pega Systems (1983 BPM元祖→RPA加わる)・WorkFusion (2010 IPO 2024)・Kryon Systems (現Nintex)・SAP Build Process Automation (旧Contextor 2018買収)・NICE NEVA→Workforce Management・Tungsten Automation 旧 Kofax (2024)・Selenium (2004 Open Source・Web Test→RPA転用)・AutoIt+AutoHotkey (Windows scripting)・Sikuli (2010 MIT Image Recognition)・GUI Native Recording: Win32 API+UIA UI Automation+MSAA・OCR統合+ML+IDP Intelligent Document Processing・Hyperautomation (2020 Gartner Top Strategic・RPA+AI+ML+API+BPM統合)・AI Agent Era (2023+ ChatGPT Plugins→Agentic Workflow・Claude Computer Use 2024年10月→AI Native Computer Operation)・n8n (2019 FOSS Self-Hosted)+Zapier (2011 Cloud)+Make.com 旧Integromat・Bardeen.ai+Adept.ai+OpenAdapt・¥¥¥¥-¥¥¥¥¥¥/月 Per Bot 2026 RPA $20B+ Market UiPath+Power Automate2強。
2022年Scott Aaronson + OpenAI発表Aaronson Watermark paper・Industry-leading OpenAI cryptographic pseudorandom watermark + Industry-leading Scott Aaronson OpenAI tenure + Industry-emerging OpenAI watermark Pioneer。
2023年Scott Aaronson (OpenAI)発表Cryptographic Watermark・Industry-leading cryptographic watermark theoretical proposal + Industry-leading PRF-based watermark + Industry-leading provable security + Industry-leading OpenAI watermark research foundation。
LoRAより少ないパラメータでLLMを適応させるPEFT手法。Attention層のキー・値・FFN層の活性化にスケーリングベクトル(要素積)を乗算するのみで、学習パラメータ数をLoRAの数分の一に抑える。
アテンションとFFNのアクティベーションを少数の学習可能スケーリングベクトルで調整するPEFT手法。Liu et al. 2022提案。LoRAより少ないパラメータ(0.01%程度)でin-context learningを超える精度を達成。Few-shotタスクに特に有効。
Transformer の内部活性化にスカラーベクトルを掛け合わせてファインチューニングするパラメータ効率手法。学習パラメータ数は LoRA より1桁少ない。
2022年Liu et al.発表IA3 paper・Industry-leading Infused Adapter by Inhibiting and Amplifying Inner Activations paradigm + Industry-leading rescaling-based PEFT + Industry-emerging IA3 Pioneer。
長いコンテキストを少数のメモリスロット(memory slots)に圧縮するLLMベースのオートエンコーダ手法。Ge et al. 2024提案。圧縮・復元の両方向学習でコンテキスト長の問題を解決し、long-context推論を低コスト化する。
2024年8月21日Ideogram公開2.0。Pro 業界Pro Mainstream Text Rendering Image AI Top + Pro Photorealism大幅向上 + Pro 元Google Imagen Researcher設立 + Pro Magic Prompt + Pro $7-$48 Subscription + Pro a16z/Index Ventures投資 + 2024-12 Pro Ideogram 2a + 2025-Pro 3.0公開予定 + 累計2023-2025年2年Heritage。