高精細な動画を生み出すOpenAIの新ツール「Sora」は、生成AIを新たな次元へと押し上げる

By tuweiiwp

テキストによる指示で高精細な動画を生成する新しいツール「Sora」をOpenAIが発表した。作例のようなクオリティを本当に実現できるなら、これはAIモデルに命令して魔法のように映画を制作する時代の到来に向けた、長いカウントダウンの始まりかもしれない。 OpenAIの会話型AIが法科大学院に行かなくても司法試験に合格できることは、すでに知られている。そしていま、アカデミー賞が発表される直前のタイミングで、人工知能(AI)を用いたOpenAIの新たなツール「Sora」は、映画の学校に通わずとも映画制作を習得することを望んでいるのだ。 現時点では研究用のツールであるSoraは、一部の選ばれたクリエイターと、安全に関する脆弱性を評価するレッドチームの役割を担う多数のセキュリティ専門家に提供される予定である。時期は未定ながらもOpenAIはSoraをすべての“映画監督志望者”が利用できるようにする計画だが、先行してプレビューを実施することに決めたという。 グーグルのような大手企業からRunwayのようなスタートアップまで、さまざまな企業がすでにテキストを動画に変換するAIプロジェクトを公表している。しかし、OpenAIによると、Soraはそれらの競合モデルでは見たことがないような特筆すべきフォトリアリズム(写真のような写実性)と、ほかのモデルが生成する断片的な映像より長い最大1分の動画を生み出す能力において、一線を画しているという。 取材した研究者たちは、Soraがすべての映像をレンダリングするためにどれだけの時間が必要なのかを語ろうとしなかった。しかし、さらに踏み込んで尋ねたところ、「数日の休みをとる」というよりは、野球場に「ブリトーを食べに出かける」くらいの時間であると説明してくれた。実際に見せてもらった厳選された映像の事例が信じられるものだとすれば、それくらいの時間をかける価値はある。 https://wired.jp/article/openai-sora-generative-ai-video/

グーグル、次世代AIモデル「Gemini 1.5」発表

By tuweiiwp

Googleは2月に入って、チャット形式の生成AI「Bard」を「Gemini」に刷新したほか、サポートする全ての言語で(先週時点での)最新モデルの「Gemini Pro」に対応するなど、AI関連のアップデートを頻繁に行っている。 今回Googleが公開した「Gemini 1.5 Pro」では、より少ない計算量で「Gemini 1.0 Ultra」と同等のクオリティを担保するという。「Gemini 1.5 Pro」は、長文の理解で画期的な進歩を実現しており、最大で100万のトークンを継続的に処理できるなど、扱える情報量が大幅に増加している。また、これまでの大規模基盤モデルの中で、最長のコンテキストウィンドウを実現している。 初期テスト用に公開されるAIモデルは「Gemini 1.5 Pro」で、中規模のマルチモーダルモデルで幅広いタスクにわたるスケーリングに最適化され、「Gemini 1.0 Ultra」と同等のパフォーマンスを発揮するという。また、長文の文脈理解に関する試験運用機能も導入される。 「Gemini 1.5 Pro」は、12万8000トークンのコンテキストウィンドウが標準で付属するが、一部の開発者と顧客向けには、「AI Studio」と「Vertex AI」より、プレビュー版として最大100万トークンのコンテキストウィンドウが試せる。100万トークンのコンテキストウィンドウは計算量が多くなるため最適化が必要だが、規模拡大に向けて取り組んでいるという。 AIモデルの「コンテキストウィンドウ」は、情報処理の構成要素であるトークンで構成され、トークンは単語、画像、動画、音声、コードの全体または一部にできる。コンテキストウィンドウが大きくなるほど、特定のプロンプトでより多くの情報を取り込んで処理できるようになり、出力の一貫性や関連性、有用性が高まる。 一連の機械学習を通じて、Gemini 1.5 Proのコンテキストウィンドウの容量は、Gemini 1.0の3万2000トークンから大幅に増加し、現在では最大100万個のトークンを実行できる。これは、Gemini 1.5 Proが1時間の動画、11時間の音声、3万行以上のコードまたは70万文字以上のコードなど、膨大な量の情報を一度に処理できることを表している。 https://k-tai.watch.impress.co.jp/docs/news/1569289.html

Stable Diffusionより凄い!? 画像生成AI「Stable Cascade」

By tuweiiwp

Stability AIは2月13日、高品質、柔軟性、効率性を重視した新しいテキスト画像変換モデル「Stable Cascade」の研究プレビュー版を、非商用ライセンスの下で公開した。 一般消費者向けハードウェアで実行可能  Stable Cascadeは、「Würstchen(ドイツ語で「ソーセージ」の意味)」と呼ばれるアーキテクチャをベースにした新しいテキスト画像変換モデル。「品質、柔軟性、微調整、および効率性のための新しいベンチマークを設定し、ハードウェアのバリアをさらに排除することに重点を置いた3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできる」という。 チェックポイントと推論スクリプトだけではなく、微調整、ControlNet、LoRAトレーニング用のスクリプトも公開予定となっており、実現すればStable Diffusionでもお馴染みの様々な手法を試せるようになる。 24×24と極小サイズの潜在空間  Stable Cascadeは、Stage A、B、Cからなる3つの異なるモデルをパイプラインで繋いだ構成。 最初のステージ(Stage C:Latent Generator)ではユーザーの入力を、Diffusionモデルでわずか24×24という極小サイズの潜在空間に変換する。事前学習、ControlNet、LoRAの学習などはここで処理されるため、通常より乏しいマシンパワーでも可能になるという理屈だろう。 以降は次のステージ(Stage B:Latent Decoder)で、Diffusionモデルを使い、小さい潜在空間から大きい潜在空間へアップスケール。最後のステージ(Stage A:Latent Decoder)でVAE(Variational Auto-Encoder)を使い、潜在空間を画像にデコードするという仕組みだ。 ステージCのパラメーターは1Bと3.6B、ステージBのパラメーターは700Mと1.5Bのものが用意されている。当然大きい方が画像品質は上がるが、必要となるマシンパワーも増大する。 ControlNetも利用可能  Stable Cascadeは通常のText 2 Imageだけではなく、1枚の画像からバリエーションを生成することもできる。 https://news.yahoo.co.jp/articles/2f9abafae858e373762c67b61547c2f99bcac5c8