Googleは2月に入って、チャット形式の生成AI「Bard」を「Gemini」に刷新したほか、サポートする全ての言語で(先週時点での)最新モデルの「Gemini Pro」に対応するなど、AI関連のアップデートを頻繁に行っている。
今回Googleが公開した「Gemini 1.5 Pro」では、より少ない計算量で「Gemini 1.0 Ultra」と同等のクオリティを担保するという。「Gemini 1.5 Pro」は、長文の理解で画期的な進歩を実現しており、最大で100万のトークンを継続的に処理できるなど、扱える情報量が大幅に増加している。また、これまでの大規模基盤モデルの中で、最長のコンテキストウィンドウを実現している。
初期テスト用に公開されるAIモデルは「Gemini 1.5 Pro」で、中規模のマルチモーダルモデルで幅広いタスクにわたるスケーリングに最適化され、「Gemini 1.0 Ultra」と同等のパフォーマンスを発揮するという。また、長文の文脈理解に関する試験運用機能も導入される。
「Gemini 1.5 Pro」は、12万8000トークンのコンテキストウィンドウが標準で付属するが、一部の開発者と顧客向けには、「AI Studio」と「Vertex AI」より、プレビュー版として最大100万トークンのコンテキストウィンドウが試せる。100万トークンのコンテキストウィンドウは計算量が多くなるため最適化が必要だが、規模拡大に向けて取り組んでいるという。
AIモデルの「コンテキストウィンドウ」は、情報処理の構成要素であるトークンで構成され、トークンは単語、画像、動画、音声、コードの全体または一部にできる。コンテキストウィンドウが大きくなるほど、特定のプロンプトでより多くの情報を取り込んで処理できるようになり、出力の一貫性や関連性、有用性が高まる。
一連の機械学習を通じて、Gemini 1.5 Proのコンテキストウィンドウの容量は、Gemini 1.0の3万2000トークンから大幅に増加し、現在では最大100万個のトークンを実行できる。これは、Gemini 1.5 Proが1時間の動画、11時間の音声、3万行以上のコードまたは70万文字以上のコードなど、膨大な量の情報を一度に処理できることを表している。