DeepSeekアプリ、リリース20日でDAU2000万人突破 ChatGPTを超える爆発的な伸び

By tuweiiwp

中国の人工知能(AI)スタートアップ「DeepSeek」のアプリが、リリース後20日でDAU(1日あたりのアクティブユーザー数)2000万人を突破した。 中国の調査サイト「AI産品榜(aicpb.com)」によると、DeepSeekのアプリ(モバイル版)はリリース5日目のDAUが米OpenAIのChatGPTを上回り、その後も急速にDAUを伸ばして世界で最も急成長しているAIアプリとなった。 ちなみに、同じく中国のAIスタートアップ「月之暗面(Moonshot AI)」が提供するAIアプリ「Kimi」は、2024年12月のMAU(月間アクティブユーザー数)が2101万人だった(Quest Mobile調べ)。 米有力ベンチャーキャピタル(VC)のアンドリーセン・ホロウィッツ(a16z)の共同創業者、マーク・アンドリーセン氏は2月3日、米調査会社センサータワーのデータを引用し、DeepSeekアプリのDAUはすでにChatGPTの23%に達し、1日あたりのダウンロード数が500万回に迫っていると投稿した。 https://36kr.jp/328510/

Googleの最新AI「Gemini 2.0」が開発者向けに大規模展開

By tuweiiwp

Googleは、Google AI StudioおよびVertex AIのGemini APIを通じて「Gemini 2.0 Flash」の提供を開始。また、「Gemini 2.0 Pro」の試験運用版の公開、「Gemini 2.0 Flash-Lite」の一般ユーザー向けプレビューも開始した。   同社は2024年12月に、低レイテンシと性能強化を実現した開発者向けの主要モデルである「Gemini 2.0 Flash」の試験運用版を公開。2025年の始めにはGoogle AI Studioで「2.0 Flash Thinking Experimental」を更新。さらに、デスクトップおよびモバイルのGeminiアプリにおいて全ユーザーがGemini 2.0 Flashを利用可能にした。   Gemini 2.0 Flashは大規模で高頻度のタスクに好適としており、100万トークンのコンテキストウィンドウにより、膨大な情報量のマルチモーダル推論に特化しているという。   一方でGemini 2.0 Proは、従来より優れたコーディング性能、複雑なプロンプトの処理能力を備え、世界中の知識に関する理解と推論における性能が向上。200万トークンのコンテキストウィンドウを備え、膨大な量の情報を包括的に分析して理解できるほか、Google検索やコード実行などのツールを呼び出す機能も備える。   Gemini 2.0 Flash-Liteは、1.5 Flashと同じ速度とコストで、より優れた性能を実現する新しいモデルとなる。 https://news.yahoo.co.jp/articles/9690d8e59bc7cdcff5124ef824ec90e55b427022

ChatGPTで複雑なウェブリサーチを自動化する「Deep research」提供開始

By tuweiiwp

OpenAIは米国時間2月2日、複雑なオンラインリサーチを自動化するためのエージェント「Deep research」を「ChatGPT」に導入した。これにより、ChatGPTは人間なら何時間もかかるような多段階の調査プロセスを数分~数十分で実行し、膨大な情報を統合して包括的なレポートを作成できるようになる。  Proプランでは同日より利用でき、Plus/Teamプランでも近く利用可能となる。Deep researchは、今後リリースされる「OpenAI o3」モデルの、ウェブブラウジングとデータ分析用に最適化されたバージョンを活用している。  OpenAIはDeep researchを、汎用人工知能(AGI)への大きな一歩と捉えており、新しい洞察を生み出すためには知識を統合する能力が重要だと述べた。この機能は、徹底的で正確かつ信頼性の高いリサーチを必要とする、金融、科学、政策、工学などの分野の人々を対象としている。また、自動車や家電など、慎重な事前調査を要する製品の購入を検討する消費者にも役立つという。  利用するには、ChatGPTの画面で「Deep research」を選択し、質問を入力する。質問の背景を伝えるためにファイルを添付することも可能だ。リサーチは5分から30分を要し、完了するとユーザーに通知される。調査レポートはチャット内に表示される。今後、レポートに画像なども含められるようになる予定だ。  OpenAIは、「GPT-4o」がリアルタイムのマルチモーダルな会話に最適であるのに対し、Deep researchは広範な調査と出典の明示を必要とする、詳細な特定分野の調査に向いているとしている。 https://japan.cnet.com/article/35228972/

高精細な動画を生み出すOpenAIの新ツール「Sora」は、生成AIを新たな次元へと押し上げる

By tuweiiwp

テキストによる指示で高精細な動画を生成する新しいツール「Sora」をOpenAIが発表した。作例のようなクオリティを本当に実現できるなら、これはAIモデルに命令して魔法のように映画を制作する時代の到来に向けた、長いカウントダウンの始まりかもしれない。 OpenAIの会話型AIが法科大学院に行かなくても司法試験に合格できることは、すでに知られている。そしていま、アカデミー賞が発表される直前のタイミングで、人工知能(AI)を用いたOpenAIの新たなツール「Sora」は、映画の学校に通わずとも映画制作を習得することを望んでいるのだ。 現時点では研究用のツールであるSoraは、一部の選ばれたクリエイターと、安全に関する脆弱性を評価するレッドチームの役割を担う多数のセキュリティ専門家に提供される予定である。時期は未定ながらもOpenAIはSoraをすべての“映画監督志望者”が利用できるようにする計画だが、先行してプレビューを実施することに決めたという。 グーグルのような大手企業からRunwayのようなスタートアップまで、さまざまな企業がすでにテキストを動画に変換するAIプロジェクトを公表している。しかし、OpenAIによると、Soraはそれらの競合モデルでは見たことがないような特筆すべきフォトリアリズム(写真のような写実性)と、ほかのモデルが生成する断片的な映像より長い最大1分の動画を生み出す能力において、一線を画しているという。 取材した研究者たちは、Soraがすべての映像をレンダリングするためにどれだけの時間が必要なのかを語ろうとしなかった。しかし、さらに踏み込んで尋ねたところ、「数日の休みをとる」というよりは、野球場に「ブリトーを食べに出かける」くらいの時間であると説明してくれた。実際に見せてもらった厳選された映像の事例が信じられるものだとすれば、それくらいの時間をかける価値はある。 https://wired.jp/article/openai-sora-generative-ai-video/

グーグル、次世代AIモデル「Gemini 1.5」発表

By tuweiiwp

Googleは2月に入って、チャット形式の生成AI「Bard」を「Gemini」に刷新したほか、サポートする全ての言語で(先週時点での)最新モデルの「Gemini Pro」に対応するなど、AI関連のアップデートを頻繁に行っている。 今回Googleが公開した「Gemini 1.5 Pro」では、より少ない計算量で「Gemini 1.0 Ultra」と同等のクオリティを担保するという。「Gemini 1.5 Pro」は、長文の理解で画期的な進歩を実現しており、最大で100万のトークンを継続的に処理できるなど、扱える情報量が大幅に増加している。また、これまでの大規模基盤モデルの中で、最長のコンテキストウィンドウを実現している。 初期テスト用に公開されるAIモデルは「Gemini 1.5 Pro」で、中規模のマルチモーダルモデルで幅広いタスクにわたるスケーリングに最適化され、「Gemini 1.0 Ultra」と同等のパフォーマンスを発揮するという。また、長文の文脈理解に関する試験運用機能も導入される。 「Gemini 1.5 Pro」は、12万8000トークンのコンテキストウィンドウが標準で付属するが、一部の開発者と顧客向けには、「AI Studio」と「Vertex AI」より、プレビュー版として最大100万トークンのコンテキストウィンドウが試せる。100万トークンのコンテキストウィンドウは計算量が多くなるため最適化が必要だが、規模拡大に向けて取り組んでいるという。 AIモデルの「コンテキストウィンドウ」は、情報処理の構成要素であるトークンで構成され、トークンは単語、画像、動画、音声、コードの全体または一部にできる。コンテキストウィンドウが大きくなるほど、特定のプロンプトでより多くの情報を取り込んで処理できるようになり、出力の一貫性や関連性、有用性が高まる。 一連の機械学習を通じて、Gemini 1.5 Proのコンテキストウィンドウの容量は、Gemini 1.0の3万2000トークンから大幅に増加し、現在では最大100万個のトークンを実行できる。これは、Gemini 1.5 Proが1時間の動画、11時間の音声、3万行以上のコードまたは70万文字以上のコードなど、膨大な量の情報を一度に処理できることを表している。 https://k-tai.watch.impress.co.jp/docs/news/1569289.html

Stable Diffusionより凄い!? 画像生成AI「Stable Cascade」

By tuweiiwp

Stability AIは2月13日、高品質、柔軟性、効率性を重視した新しいテキスト画像変換モデル「Stable Cascade」の研究プレビュー版を、非商用ライセンスの下で公開した。 一般消費者向けハードウェアで実行可能  Stable Cascadeは、「Würstchen(ドイツ語で「ソーセージ」の意味)」と呼ばれるアーキテクチャをベースにした新しいテキスト画像変換モデル。「品質、柔軟性、微調整、および効率性のための新しいベンチマークを設定し、ハードウェアのバリアをさらに排除することに重点を置いた3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできる」という。 チェックポイントと推論スクリプトだけではなく、微調整、ControlNet、LoRAトレーニング用のスクリプトも公開予定となっており、実現すればStable Diffusionでもお馴染みの様々な手法を試せるようになる。 24×24と極小サイズの潜在空間  Stable Cascadeは、Stage A、B、Cからなる3つの異なるモデルをパイプラインで繋いだ構成。 最初のステージ(Stage C:Latent Generator)ではユーザーの入力を、Diffusionモデルでわずか24×24という極小サイズの潜在空間に変換する。事前学習、ControlNet、LoRAの学習などはここで処理されるため、通常より乏しいマシンパワーでも可能になるという理屈だろう。 以降は次のステージ(Stage B:Latent Decoder)で、Diffusionモデルを使い、小さい潜在空間から大きい潜在空間へアップスケール。最後のステージ(Stage A:Latent Decoder)でVAE(Variational Auto-Encoder)を使い、潜在空間を画像にデコードするという仕組みだ。 ステージCのパラメーターは1Bと3.6B、ステージBのパラメーターは700Mと1.5Bのものが用意されている。当然大きい方が画像品質は上がるが、必要となるマシンパワーも増大する。 ControlNetも利用可能  Stable Cascadeは通常のText 2 Imageだけではなく、1枚の画像からバリエーションを生成することもできる。 https://news.yahoo.co.jp/articles/2f9abafae858e373762c67b61547c2f99bcac5c8