先日、Deep Purpleの『Live At Montreux 2006』を観ていたら、キーボーディストのドン・エイリーさん(Colosseum II〜Rainbow〜MSG〜Ozzy Osbourne〜Gary Mooreなどを経て、2002年にジョン・ロード氏の後任としてDeep Purpleに加入)が、Kurzweilブランドのシンセ「K2600シリーズ」を自在に操っている姿を発見しました。
このシンセは、その名の通り、シンギュラリティ理論で有名なレイ・カーツワイルさんが1980年代初頭にスティーヴィー・ワンダーさんとの会話をきっかけに立ち上げたKurzweil Music Systems社が製造したものです(1990年に韓国の老舗ピアノメーカーYoung Chang社に売却)。
「アコースティック・ピアノの音を完全に再現できるシンセサイザーを作れないか?」という問いを立て、開発に着手したカーツワイルさんは、1984年に、世界初のサンプリング方式でアコースティック楽器の音色をリアルに再現するシンセサイザー、「Kurzweil K250」を世に送り出したのです。
この「K250」は、ワンダーさんを始め、『アンタッチャブル』('87)や『ニュー・シネマ・パラダイス』('89)でおなじみのエンニオ・モリコーネさん、『ライオン・キング』('94)、『グラディエーター』('00)、『パイレーツ・オブ・カリビアン』('03~)のハンス・ジマーさん、史上最も売れた(推定1億枚)MJの『スリラー』('82)を手掛けたことでも知られるクインシー・ジョーンズさんなどが使用していたことが確認できました。
ドン・エイリーさんのK2600シリーズは、他にもジョーダン・ルーデスさん(Dream Theater)、Nine Inch Nailsなどが使用しています。エンヤさんはK2000を使って、あの声とシンセのブレンドを行っていました。
カーツワイルさんとシンセサイザー(音楽)
レイ・カーツワイルさんの父親は、指揮者であり作曲家(フレデリック・カーツワイルさん)でした。ハンガリー出身のユダヤ系で、ナチスの迫害を逃れて米国に移住しました(因むと母親のハンナさんは画家でした)。
幼少期のカーツワイルさんは、クラシック音楽が流れる家庭環境の中で育ち、早くからピアノを学びました。
子供の頃から電子回路やコンピュータに強い興味を持っていた彼は、10代の時に、コンピュータを使って作曲を行うプログラムを作成しています。コンピュータと並行して音楽への愛情も育てていたことが良くわかります。
1970年代にはOCRや音声合成を開発(Kurzweil Reading Machine)して、視覚障害者支援技術を商業化させますが、それが縁となり、1982年にスティーヴィー・ワンダーさんと会うことになりました(ワンダーさんがKurzweil Reading Machineのユーザーでした。詳細は後述)。その会話の中で、ワンダーさんが「本物のアコースティック楽器の音を再現できるキーボードが欲しい」と語ったことから、カーツワイルさんがシンセ開発を決意したのでした。その際のワンダーさんの言葉は「シンセサイザーは便利だけど、ピアノや弦楽器の“魂”が宿ってないんだよ。」というものでした。
早速その年のうちにKurzweil Music Systems社を創業したカーツワイルさんは、数年後の1984年に「Kurzweil K250」を発表。世界で初めてサンプリング方式でリアルなアコースティック音(ピアノだけでなく、ストリングスや金管楽器も)を再現するデジタルシンセサイザーは、業界に衝撃を与えました。
これは、ハーバード大学でのAI研究・起業経験と、音楽的素養の両方が融合した「奇跡の瞬間」だったと言えます。
OCR(光学式文字認識)の飛躍的進化
話は変わりますが、これも先日、久しぶりにOCRを触る機会があり、その進化に驚かされました。6~7年前に仕事で使っていた頃は6~8割程度の精度でなかなかにして使い辛かった(漢字の誤認識や縦書きや崩し文字に弱い問題、濁点・句読点の脱落など)のですが、今ではほぼほぼ楽勝で認識するようになっています。
当時との比較は以下の通りです(一部感覚値)。
- 認識精度(印刷文書):80%程度 → 99%前後
- 認識精度(手書き文書):60%程度 → 90%以上(学習次第?)
- 縦書き対応:不安定 → 安定して対応可能
- レイアウト復元:困難 → 段組・図表も復元可能
- 文脈理解を活かした補正:ほぼなし → BERT系・GPT系で実装可能
- 辞書・固有名詞対応:弱い → カスタマイズ可能
実際に使ってみると、劇的な進化を実感することができます。勿論これはAIとの融合によるもの(AI OCR)であり、精度向上の主な理由には以下のようなことが考えられます。
1.ディープラーニングの導入
画像処理にCNN(畳み込みニューラルネットワーク)やAttention機構を用いたことで、従来のルールベース方式より遥かに高精度になった。
2.自然言語処理(NLP)との融合
OCR後の文字列に対して、GPTやBERTのような言語モデルで文脈的補正をかけることで、たとえば「機械學習」→「機械学習」のような正規化も可能に。
3.マルチモーダルAIの登場
画像理解とテキスト理解を統合したモデル(例:GPT-4 with Vision)により、文書全体の意味構造を踏まえたOCRが可能に。
4.データ拡充とファインチューニング
医療、行政、法務など、業界特化の辞書やフォーマットに合わせたOCRの開発が進み、精度が用途ごとに最適化された。
カーツワイルさんとOCR
OCRは、オーストリアのグスタフ・タウヒェルトさんという人が、パンチカードやタイプライター文字を認識する機械的なシステムを1930年頃に開発したことが起源とされています。ただしこの装置は、現代のOCRのようなスキャン+画像解析+パターン認識の仕組みではなく、特定のフォントや活字の形状を電気機械的にパターン認識する装置で、一種の「テンプレート照合」「機械的な当たり判定」に近い仕組みだったようです。
その後、1950年代にReader's Digest社とIBM社が、アメリカで郵便番号の自動読み取りなどに使うOCRを共同開発したり(数字や特定の記号に限定された用途)、デビッド・H・シェパードさんという人が開発した、数字読み取り専用の「Gismo」と呼ばれるOCR機器がアメリカ政府の小切手読み取り業務などで使用されたことが、商用OCRの先駆けとなりました。
OCRの黎明期は文字認識が困難だったため、読み取りやすい専用フォントであるOCR-A、OCR-Bが開発されたのが、1960年代。それが1970年代に登場する商用OCR製品につながっていくのですが、カーツワイルさんは1974年に視覚障がい者が印刷物を「読む」ための技術開発に取り組みました。彼は、当時としては革新的だった「任意のフォントで印刷された文字を認識できるOCR技術」を開発したのです。
それまでのOCRは、OCR-A、OCR-Bという特定フォントにしか対応できなかったため、彼のシステムは画期的でした。
1976年に、Kurzweil Computer Products社は「Kurzweil Reading Machine」を発表しています。スティーヴィー・ワンダーさんが使っていたやつです。これは、OCRで認識した文字を、音声合成技術(Text-to-Speech)によって読み上げる装置で、視覚障害者にとって大きな福音となりました。
Kurzweil Computer Products社は、後にXerox社に買収され、OCR技術としてさらに洗練されていくことになりました。
OCRだけでなく、「TTS(Text to Speech)」と連携させた統合的な読書支援装置としての完成度が高かった点が、カーツワイルさんの偉業と言えます。
(プチ)カーツワイル史
このような画期的な発明を行い、音楽界や産業界に革新をもたらしてきたレイ・カーツワイルさんですが、今ではご存じの通り、AI研究の第一人者として知られています。
1948年にニューヨークで生まれた彼は、音楽家の父と画家の母の下、音楽と創造性に満ちた家庭で育ちました。幼少期から「人間とは何か?」「知能とは何か?」という哲学的関心を抱き、早くからテクノロジーと人間の融合を志しました。
1965年、高校生だった彼はアメリカの人気番組「I've Got a Secret」に出演し、IBM製コンピュータによる自動作曲システムを披露。この頃から「創造性は人間だけのものなのか?」という問いに挑み始めました。
1974年には、前述の視覚障害者向けKurzweil Reading Machineを発明(OCR + 音声合成)。これが実用AIの先駆けだったと言えるのではないでしょうか。
1980年代には、前述の通りスティーヴィー・ワンダーとの出会いから、Kurzweil Music Systemsを設立しKurzweilシンセサイザーを開発。世界初の本格的なサンプリング・シンセサイザー「K250」で業界を驚かせました。
1990年代に入ると、AIと自然言語理解、教育分野へ進出します。Kurzweil Applied Intelligence(音声認識ソフト:Dragon NaturallySpeakingの原型)の他、Kurzweil Educational Systems(読字障害支援ツール)なども開発し、一躍実用AIの第一人者として名を馳せて行きました。
2012年からはGoogleに招聘され、AIと自然言語理解を中心に研究開発を担当。Google AssistantやGoogle Searchの知識ベースにも彼の考えが応用されています。その後もAGI(汎用人工知能)の登場に向け、未来社会と人間の進化に関する提言を続けており、昨年には待望の新著『The Singularity Is Nearer』が出版されました(参考リンク)。
彼の思想の中核となるキーワードは、以下の4つです。
- シンギュラリティ
AIが人類の知能を超え、文明が爆発的に進化する転換点(2045年と予測) - トランスヒューマニズム
人間の限界を技術で超える思想(脳とAIの融合・身体のアップグレードなど) - 不老不死への挑戦
自ら1日あたり約250種類のサプリメントを摂取し、100歳以上の生存と「死の回避」を目指す(近年では技術の進歩により摂取サプリは約100種類に減少したとのこと) - 加速するリターン
技術革新は指数関数的であり、未来は想像よりはるかに早くやってくるという考え
カーツワイルさんに学ぶ「正しいテクノロジー活用スタンス」
彼のこれまでの実績を見ると、まず「やりたいこと」「成し遂げたいこと」や「思い」があって、それを実現するためにテクノロジーを研究・開発・利用するスタンスであるような気がします。ベースは幼少期から抱いている「人間」や「知能」に対する哲学的な関心なのでしょう。
現在の「AI狂騒曲」を見ていると、この順番が逆になっているような気がしてなりません。この「皆がやってるから自分たちもAIをやらなきゃ」という本末転倒なスタンスの多さが、最近非常に気になるのです。
あくまでテクノロジーは人間が主体的に活用すべきものであるはずです。今の受動的なスタンスでいくといずれ人間がAIに「使われる」ようになる気がしてしまいます。
私たちは「AIをどう活用するか?」の前に、「何のために使うのか?」を明確にしなければなりません。テクノロジーに振り回されるのではなく、自分の人生にとって本当に意味ある形で付き合っていく。カーツワイルさんの生き方は、そのヒントを与えてくれている気がします。
AIはただの道具ですが、使う人間の思想が宿ります。「シンセに“魂”が宿っていない」と語ったスティーヴィー・ワンダーさんに応えるように、カーツワイルさんは技術に人間の感性を吹き込みました。彼が示してくれたのは、「未来は創るものだ」という静かな信念です。
私たちは、どう在りたいのでしょうか。
自分自身の問いを持って、AIと共に歩んでいきたいと思います。
BBDF 藤本