11000件の用語
LLM Alignment+Post-Training。RLHF Reinforcement Learning from Human Feedback (PPO・OpenAI ChatGPT)・DPO Direct Preference Optimization (Stanford 2023)・RLAIF Reinforcement Learning from AI Feedback (Anthropic Constitutional AI)・GRPO Group Relative Policy Optimization (DeepSeek R1)・KTO Kahneman-Tversky Optimization・SimPO・Online DPO・Iterative DPO・SFT Supervised Fine-Tuning・Reward Model RM・¥0 OSS、2026年GRPO Reasoning訓練主流。
RLHFとConstitutional AIを組み合わせたアライメント手法。人間フィードバックで価値観の大枠を確立し、CAIの自己批判サイクルでスケールアップと特定ドメインの安全性を向上させる現実的なハイブリッドアプローチ。
人間フィードバックからの強化学習(RLHF)を用い、LLMを有益・無害・正直な方向に誘導する安全性調整技術。
LLMアライメント訓練手法。RLHF(Reward Model+PPO)・DPO(Direct Preference Optimization・OpenAI)・GRPO(Group Relative Policy Optimization・DeepSeek R1採用)・ORPO(Odds Ratio)・SimPO・KTO(Kahneman-Tversky)・IPO・SLiC-HF・RLAIF(AI feedback)・Constitutional AI(Anthropic)代表、2026年GRPO主流化・推論能力強化用。
人間フィードバックによる強化学習。人間の選好データで報酬モデルを訓練し、そのモデルを使いPPOでLLMをファインチューニングする手法。ChatGPT・Claude・Geminiなど主要LLMのアライメントに広く採用される。
1985 年に IBM が HDD で実用化した記録符号化方式。MFM 符号化を改良して連続する 0/1 の最大長を制限することでクロック同期を維持しつつ、データ密度を MFM の 1.5 倍に向上、ESDI インタフェース HDD・1980 年代後半-1990 年代の高密度 HDD で広く採用された。
検証可能な報酬関数のみを使用してLLMを強化学習する枠組み。数学の正誤判定やコード実行結果など決定論的に検証できる報酬を用い、報酬モデルの誤り(ハッキング)を排除してスケーラブルな訓練を実現する。
Robot Operating System の第 2 世代。DDS ベースの分散通信で組込・産業ロボットからクラウドロボティクスまでカバーする業界標準ロボットミドルウェア。
Robot Operating System ROS 2007-2026。ROS 1 (Stanford+Willow Garage 2007-→Open Robotics 2012-→OSRA Open Source Robotics Alliance 2024)・ROS 1 Distros: Box Turtle 2010+C Turtle+Diamondback+ Electric Emys+Fuerte Turtle+Groovy Galapagos+Hydro Medusa+Indigo Igloo+Jade Turtle+Kinetic Kame+Lunar Loggerhead+Melodic Morenia+Noetic Ninjemys 2020 LTS (ROS 1最終)・ROS 2 Foxy Fitzroy 2020+Galactic Geochelone+Humble Hawksbill 2022 LTS+Iron Irwini 2023+Jazzy Jalisco 2024 LTS+Kilted Kaiju 2025+Lyrical Luth 2026 (May)・DDS Data Distribution Service Pub/Sub Layer (FastDDS+Cyclone DDS+RTI Connext)・rclcpp+rclpy+rclrs Rust・Nav2 Navigation Stack+MoveIt 2 Manipulation Stack+RViz2 Visualizer+Gazebo Sim/Ignition Sim・micro-ROS Embedded・Real-Time Linux Preempt-RT・¥0 全Free OSS BSD・OSRA保守、2026年Jazzy LTS+Lyrical Luth+Nav2+MoveIt 2+Gazebo主流。
RDMA over Converged Ethernet version 2。InfiniBand RDMA を Ethernet + IP ルーティング経由で実現する規格、UDP/IP 使用でデータセンタネットワーク経由の超低遅延 RDMA を実装、AI HPC / NVMe-oF で主流。
概要
Anbernic 2020年発売のRG350 後継。Rockchip RK3326・3.5インチ 320×480・Wi-Fi対応・PSP 全面対応化、$70-90 で中堅エミュレーション機の決定版。
Anbernic 2023年発売の超人気レトロハンドヘルド。Allwinner H700 SoC・3.5インチ 640×480・$65 廉価・Game Boy 風筐体で2023-2024年最大ヒット。
Anbernic 2024年Q1発売のAndroid 13ハンドヘルド最上位機。Unisoc T820 SoC・5.48インチ 1920×1080 AMOLED・$159、PSP / N64 / DC 完璧 + 軽量Switch エミュレーション可能。
米RCA 1938年発表リボンマイクロフォン。Olson設計+8の字指向性+Vintage米放送業界標準・約US$200当時
米RCA 1956年発表ビーム四極管真空管。Audiophileパワー管経典+Fenderギターアンプ標準+ブラックプレート希少品
米 RCA が 1958 年に発売した世界初の商用ステレオ LP デモ盤の一つ。Westrex 3D 方式によるステレオ LP 規格成立直後にリリースされた歴史的盤。
RDIMM / LRDIMM 上のクロック・アドレス信号バッファIC。CPU メモリコントローラ→DRAM チップ間の信号を再駆動、サーバ向けDIMM の必須部品。
RGB/ARGB接続分岐制御基板。CableMod Widebeam 10-way・Lian Li STR-SC・Corsair Lighting Node Pro/CORE・ASUS Aura Terminal・MSI Dragon Center Hub・NZXT RGB+Fan Controller(C10)・Phanteks Neon Digital-RGB Controller(PH-CC-RGB-X)が2026年代表、12V RGB 4pin/5V ARGB 3pin分離+同期制御。