人気の記事一覧

ついに正式版になったOpenAI o1の画像理解の実力を試す

2か月前

OpenAI o3は,人間とは全く異質の汎用知能である危険性【東大解説】

『OpenAI、高度なボイスモードが“カメラ”情報にも対応』~【web3&AI-テックビジネスのアイディアのタネ】2024.12.14

基盤モデルなどを使いながら、文章をOCRするメモ

3か月前

GeminiがAIデビューに最適?全員が驚くその理由

Amazon Nova の概要

2か月前
再生

【驚愕】AIが画面を見て理解する「UI-TARS」とは?👀GUI自動化で世界をリードするVLMの仕組みを徹底解説🔥面倒なPC操作はAIにおまかせ💡

Google Gemini2.0完全ガイド Project Astra/Project Mariner/Deep ResearchマルチモーダルAIの全貌 具体的な事例を交えて日常生活やビジネスをどう変えるか解説

¥500

空中ディスプレイに触覚提示する研究が「次世代光フォーラム2025 in 徳島」で最優秀賞を受賞!

上司を凌駕する発想ができる強いAIを目指して

2か月前

ゼロから作る超簡易的なtext-to-imageモデルーGoogle Colab編

2週間前

Google Gemini 2.0の衝撃!次世代AIが持つ革新的な機能とは

2か月前

メディアにおけるマルチモーダルAI技術の応用

新しいAIを覚える必要はない理由

『AI普及のカギは「脱プロンプト」?写真や動画での入力がプロンプト難民を救うSunoの新機能』~【web3&AI-テックビジネスのアイディアのタネ】2024.10.20

相互行為における「指さし」について

1か月前

【Google新発表】Multimodal Live API実装方法・アイディア

🐳 DeepSeek-AI Janusシリーズ:画像×言語で進化するマルチモーダルAIの新たな挑戦 ✨

2週間前

AI 業界を揺るがす可能性を持つ「Gemini 2.0」 (Google Announces Gemini 2.0, Potentially Disrupting the AI Industry )

1か月前

【論文瞬読】VITA-1.5:リアルタイム視覚・音声対話を実現する次世代マルチモーダルAI

1か月前

画像系マルチモーダルLLMであるQwen2-VLのファインチューニングの練習

4か月前

[TiiS2024] 会話中の人の挙動に関するマルチモーダルな動画シーン検索ツール

1か月前

生成AIの[早い思考と遅い思考]-『ファスト&スロー』(ダニエル・カーネマン著)を例に

1か月前

【小説2冊分を理解する?!】「Kimi k1.5」・日本語OKの中国製AIがGPT-4oを超える😲数学・コード生成・画像理解をこなすマルチモーダルAIの秘密に迫る💖最大128kトークン処理&長期CoTも強力✨

AITuberKitにマルチモーダル機能を追加したのでAIキャラと宅飲みしてみる

12 Days of OpenAI: Day 6  ChatGPTは「眼」を持った!? マジなマルチモーダルへの第一歩かも!!

【文章生成AI】主要ツールの特徴と活用方法を振り返る!

2週間前

【論文瞬読】LatentLM:画像・音声・テキストを統一的に扱う次世代生成モデル

2か月前

【論文瞬読】Amazon Nova:次世代AIモデル群の全貌を解説

2か月前

マルチモーダルLLMでユーザビリティテストしてみた。

多様な情報を理解するAI:マルチモーダルとは

生成AI関連、ブログテーマ等のつれづれ---ランキング、マルチモーダル、MoAなど

2か月前

YAMLとマルチモーダルLLMの可能性:o1-previewで技術エッセイ作成

3か月前

【速報】Google AI「Gemini」が進化🚀最新モデル「2.0 Flash」はマルチモーダル対応で何ができる?音声・画像・動画を理解するAIを無料で使う方法を解説します!

【論文瞬読】画像キャプション革命:AIの未来を変える新技術

4か月前

生成AI News - 2024/09/12

新時代の生成AIがもたらす創造と革新

13日前

どこで使う?AIエージェントという新しい切り札(前編)|#超知性ASI時代のDX企画書のネタ帳

【保存版】Googleが切り拓く次世代のマルチモーダルAI「Gemini」徹底解説

「NTT版ChatGPT誕生!?日本語特化LLM『tsuzumi』の全貌」

【知る知らないで雲泥の差】超大型アップデート「ChatGPT Voice」の真価

GoogleのGemini 2.0 Flash Experimental:マルチモーダルAIの驚異的な可能性

KIMI K 1.5が拓くAI新時代: 長大コンテキストとマルチモーダル推論の最前線

2週間前

AIとAGIと我々の未来;孫さん講演より

1か月前

音声AIUXをデザインするために考えておきたい課題

未来のAIエージェントとロボット:5年後の進化と10年後の社会像

2か月前

Llama-3.2-11B-Vision-InstructをGUIで試す

生成AIの未来予想図:ガートナーが描く2024年以降のトレンドと企業への影響

Google Geminiとは?

1か月前

「"意味"を持たないセンサー」から考える、AIが主観を獲得する可能性と、そしてLOMとSHmMという2つのコンセプト