Googleが開発した双方向Transformerベースの言語モデル。文脈を考慮した高精度な自然言語処理を実現。

Bert Modelとは？（バートモデル）わかりやすく解説

BERT Model（Bidirectional Encoder Representations from Transformers）

概要

BERT（Bidirectional Encoder Representations from Transformers）は、2018 年 10 月に Google が発表した画期的な言語モデルです。Transformer のエンコーダー部分のみを使い、双方向の文脈を同時に学習することで、自然言語理解タスクで当時の最高精度を大幅に更新しました。BERT の登場は NLP 分野における「Transformer 時代」の幕開けを象徴し、後続のすべての言語モデルに大きな影響を与えています。

特徴

双方向性（Bidirectional）

従来の言語モデル（GPT など）は左から右への一方向でしたが、BERT は文の両側から同時に文脈を学習します。

GPT: 左 → 右（自己回帰）
BERT: 左 ← 中 → 右（双方向）

この双方向性により、単語の意味を前後の文脈から総合的に理解できます。

事前学習 + ファインチューニング

事前学習: 大規模テキストで基礎学習
ファインチューニング: 下流タスクで微調整
パラダイム確立: 現代の NLP の基本戦略

アーキテクチャ

BERT-base

レイヤー: 12
隠れ次元: 768
Attention ヘッド: 12
パラメータ: 110M

BERT-large

レイヤー: 24
隠れ次元: 1024
Attention ヘッド: 16
パラメータ: 340M

モデル	開発元	特徴
Tohoku BERT	東北大	最も広く使用
cl-tohoku/bert-base-japanese-v3	東北大	最新版
rinna BERT	rinna	対話特化
LINE DistilBERT	LINE	軽量版
Stockmark BERT	Stockmark	ビジネス特化

用途	GPU	VRAM
推論	GTX 1660	6GB
ファインチューニング（base）	RTX 3060	12GB
ファインチューニング（large）	RTX 4070 Ti	16GB
事前学習	A100	80GB+

BERT Model（Bidirectional Encoder Representations from Transformers）

概要

特徴

双方向性（Bidirectional）

事前学習 + ファインチューニング

アーキテクチャ

BERT-base

BERT-large

事前学習タスク

1. Masked Language Model（MLM）

この用語に関連するコンテンツ

2. Next Sentence Prediction（NSP）

入力表現

3 つの埋め込み

特殊トークン

トークナイゼーション

WordPiece

日本語 BERT

下流タスクへの適用

1. テキスト分類

2. 文ペア分類

3. トークン分類

4. 質問応答

5. マスク言語モデル（直接使用）

ベンチマーク記録（2018-2019）

BERT の派生モデル

RoBERTa（Facebook、2019）

ALBERT（Google、2019）

DistilBERT（Hugging Face、2019）

DeBERTa（Microsoft、2020）

ELECTRA（Google、2020）

mBERT（Google、2018）

XLM-RoBERTa（Facebook、2020）

日本語 BERT モデル

実装例（Hugging Face）

ファインチューニング

BERT から GPT へ

BERT の限界

GPT の優位性

現代の状況（2026）

自作 PC での BERT

必要スペック

ファインチューニング時間の目安

関連用語

関連用語