人気の記事一覧

【小説2冊分を理解する?!】「Kimi k1.5」・日本語OKの中国製AIがGPT-4oを超える😲数学・コード生成・画像理解をこなすマルチモーダルAIの秘密に迫る💖最大128kトークン処理&長期CoTも強力✨

Making Large Multimodal Models Understand Arbitrary Visual Prompts

9か月前

Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model

8か月前

「GPT-4 Turbo」、「Vision(画像理解)」「DALL·E 3(画像生成)」を全てLINEで試せるようにしてみた。

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

9か月前

2022年1月に新設・改訂されるIPC(国際特許分類)

BLINK: Multimodal Large Language Models Can See but Not Perceive

9か月前

Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs