LLMデータ前処理とは？（エルエルエムデータマエショリ）わかりやすく解説

ルールベース: 「Copyright ©」「All rights reserved」「Cookie Policy」など既知パターンのマッチング
統計ベース: 多くのページに共通するn-gramを検出し除去（CCNetの手法）
構造ベース: HTML DOM構造からメインコンテンツ領域を特定（Trafilatura）
行単位フィルタ: 短すぎる行（5単語未満）や記号比率が高い行を除去

大規模言語モデルの学習データに対して行うテキスト正規化・クリーニング・言語判定・エンコーディング修正などの初期処理工程。生データを後続の品質フィルタリングやトークン化に適した形式に変換する。

LLMデータ前処理とは？（エルエルエムデータマエショリ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

前処理の主要タスク

Webページからの本文抽出は前処理の最初のステップである。

処理	内容	主要ツール
HTML→テキスト変換	タグ除去、本文抽出	Trafilatura, Resiliparse, jusText
エンコーディング修正	UTF-8統一、文字化け修正	ftfy, chardet
Unicode正規化	NFC/NFKC正規化、制御文字除去	unicodedata (Python)
空白正規化	連続空白・改行の統一	正規表現
URL/メール除去	プライバシー保護とノイズ低減	正規表現

Trafilatura は Webページからの本文抽出において高い精度を持つライブラリで、FineWeb の構築にも使用された。HTML のナビゲーション、フッター、広告領域を自動判別し、本文のみを抽出する。

多言語コーパスを扱う場合、各文書の言語を正確に判定する必要がある。