Brian Pinkerton 1994年4月20日University of Washington開発の世界初フルテキストWeb検索エンジン。AOL買収+1995年6月100万ページ達成。
WebCrawlerは、Brian Pinkerton(米University of Washington博士課程学生)が1994年4月20日に開発+公開した世界初のフルテキストWeb検索エンジンで、HTMLページのボディ全文をインデックス+全文検索クエリ対応を実現した検索エンジン業界の決定的革新機。従来のArchie(1990年Alan Emtage、anonymous FTPサーバ上のファイル名検索)+Veronica(1992年、Gopherサーバメニュー検索)+JumpStation(1993年12月、Title/Header検索)等の先行検索エンジンはファイル名・タイトル・ヘッダのみでフルテキスト検索非対応だったが、WebCrawlerは初の完全フルテキストでWeb検索の決定的進化を実現。1995年6月には累計100万ページインデックス達成+毎日10万ユーザーの利用を獲得し、当時最大のWeb検索エンジンとして君臨。1995年6月にAOL(America Online)が$1M(約1.5億円)で買収+1995年8月にWebCrawler Pro/AOLサブスクリプション統合+1996年6月にExcite社が$200M(約300億円)で買収+2001年Excite経営破綻+2001年4月Infospace買収+2018年現在もInfospace(System1社)下で稼働継続の長期ブランドとして30年継続。WebCrawlerの主要技術: ①HTMLパーサ+フルテキスト全文インデックス(doctitle/h1-h6/p/li 等のHTML要素を全文検索対象)+②TF-IDF(Term Frequency-Inverse Document Frequency)スコアリング(後の検索エンジンでも継続使用される基本ランキングアルゴリズム)+③Robotクローラ(Webページを定期的に巡回+取得+インデックス更新)+④シンプル検索インターフェース(Google検索の前駆)+⑤1995年6月100万ページ+1996年30万クエリ/日+1997年10万ユーザー/日等の業界トップレベル運用実績。業界の意義: ①+②+③+④+++等の検索エンジン爆発期の起点+⑤の中核として確立。は++として活動継続、として記憶される。
| 検索エンジン | 公開年 | 検索技術 | 規模ピーク |
|---|---|---|---|
| Archie | 1990 | FTPファイル名 | 数千ファイル |
| Veronica | 1992 | Gopherメニュー | 数万エントリ |
| JumpStation | 1993/12 | Title/Header |
| 数万ページ |
| WebCrawler | 1994/04 | フルテキスト | 100万ページ |
| Yahoo! | 1994/01 | Webディレクトリ | 数十万エントリ |
| AltaVista | 1995/12 | フルテキスト | 数億ページ |
| 1998/09 | PageRank+TF-IDF | 全Web |
WebCrawlerは完全に検索エンジン史の歴史的存在で、現代の自作PC・実用ブラウジング用途にはGoogle/Bing/DuckDuckGo/Yahoo Japan等の主要検索エンジンを使用するのが標準。WebCrawler.comはSystem1社運営で2018年-現在も稼働継続+Google検索結果を再パッケージ表示するメタ検索エンジンとして機能、ただし検索結果は事実上Google相当+独自インデックスなしで歴史的ブランドのみ継続。Web検索エンジン史の学習: ①Archie(1990年)+Veronica(1992年)+JumpStation(1993年)+WebCrawler(1994年)+Yahoo!(1994年)+Lycos(1994年)+AltaVista(1995年)+Excite(1995年)+Inktomi(1996年)+Google(1998年)+Bing(2009年)+DuckDuckGo(2008年)等の30年史を学ぶことで現代Google主導検索エンジン業界の理解+TF-IDF+PageRank+BERT/Transformer等のランキングアルゴリズム進化+プライバシー検索の歴史的文脈等の重要技術背景を獲得可能。自作PC検索ブラウジング: ①Google(業界事実上標準、AI検索Gemini統合)+②DuckDuckGo(プライバシー重視)+③Brave Search(独自インデックス、Brave Browser連携)+④Bing+Copilot(Microsoft AI統合)+⑤Kagi(有料プライバシー特化)等の現代選択肢を用途別に活用が現実的。
Archie(本batch同時登録、1990年9月)はWebCrawlerの直接前世代で、anonymous FTPサーバ上のファイル名検索特化、HTMLフルテキスト検索非対応。JumpStation(本batch同時登録、1993年12月)は世界初Web検索ロボットだがTitle/Header検索のみで、WebCrawlerがフルテキスト検索の決定的進化を実現。Yahoo!(既存登録、1994年1月)は同時代Webディレクトリで、人手キュレーション+カテゴリ階層+検索エンジンとは異なる方式、WebCrawlerは自動ロボットクローラ+全文インデックスで住み分け。AltaVista(既存登録、1995年12月)はWebCrawler後継+大規模化+1996年累計1.5億ページで業界1位、Google 1998年9月でPageRankで業界制覇に至る経緯。
Q1: なぜWebCrawlerが「世界初フルテキスト」? A: ①Archie(1990年)+Veronica(1992年)はファイル名・メニュー検索のみ、②JumpStation(1993年12月)はTitle/Header検索のみ、③WebCrawler(1994年4月)が初めてHTMLボディ全文をインデックス+全文検索クエリ対応を実現した点で「世界初フルテキストWeb検索」と認識。検索エンジン技術史の重要な転換点として記憶されています。
Q2: なぜAOL+Excite経由でブランド継続? A: ①1995年AOL $1M買収=1990年代当時のWeb検索エンジンとしては大成功、②1996年Excite $200M買収=Excite社の検索強化戦略、③2001年Excite破綻+Infospace買収+2018年現在System1運営=ブランド資産価値で延命継続、の経緯でWebCrawlerブランドが30年継続しているが、現在は実質的にGoogle検索結果を再パッケージするメタ検索のみの形骸化状態です。
Q3: 現代の検索エンジン選定は? A: ①Google(事実上標準、AI Gemini統合)、②DuckDuckGo(プライバシー重視、無料)、③Brave Search(独自インデックス、Brave Browser連携)、④Bing+Copilot(Microsoft AI統合)、⑤Kagi(有料プライバシー特化、月額$10、月300クエリ無料)、⑥Startpage(Google結果プライバシー版)等の現代選択肢を用途・プライバシー重視度・予算で選択するのが現実的です。