3月6日消息,據外媒報道,微軟于近日推出了多模式大型語言模型Kosmos-1。
據悉,Kosmos-1可以處理文本、圖像、音頻和視頻等內容。比如,該模型可分析圖像的內容,進行文本識別以及理解自然語言指令等。
據微軟方面介紹,用于訓練Kosmos-1的數據源自網絡。研發人員為Kosmos-1加入圖像內容理解能力之后,將有助于Kosmos-1識別文字以外的圖像內容,甚至進一步識別動態視頻內容。