阿里發(fā)布最強(qiáng)開(kāi)源模型Qwen 3,參數(shù)量?jī)H為DeepSeek-R1的1/3
藍(lán)鯨新聞4月30日訊(記者 武靜靜)趕在了五一節(jié)前,阿里巴巴開(kāi)源新一代通義千問(wèn)模型 Qwen3。據(jù)介紹,其參數(shù)量?jī)H為 DeepSeek-R1 的 1/3,成本大幅下降,但性能表現(xiàn)不錯(cuò)。
報(bào)告顯示,Qwen3-235B-A22B?在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,超過(guò)了與DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球頂尖模型。成為了全球最強(qiáng)的開(kāi)源模型。
通過(guò)模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法,Qwen3實(shí)現(xiàn)了模型體積更小情況下,性能表現(xiàn)也比更大參數(shù)規(guī)模的Qwen2.5基礎(chǔ)模型要好。特別是在 STEM、編碼和推理等領(lǐng)域,Qwen3 Dense 基礎(chǔ)模型的表現(xiàn)甚至超過(guò)了更大規(guī)模的 Qwen2.5 模型。
博客中,阿里稱(chēng),Qwen3 Dense 基礎(chǔ)模型的整體性能與參數(shù)更多的Qwen2.5基礎(chǔ)模型相當(dāng)。例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。
有意思的是,除了擁有235B參數(shù)的MoE模型外,Qwen 3還配備了一個(gè)小型MoE模型,即Qwen3-30B-A3B。該模型的激活參數(shù)量為3B,不及QwQ-32B模型的10%,然而其性能卻更為出色。
我們可以把MoE架構(gòu)理解為一個(gè)大型的客服中心,其中有許多專(zhuān)門(mén)處理不同問(wèn)題的專(zhuān)家——有的專(zhuān)家專(zhuān)門(mén)處理技術(shù)問(wèn)題,有的專(zhuān)家處理賬單查詢(xún),還有的專(zhuān)家負(fù)責(zé)解答產(chǎn)品使用問(wèn)題。在大模型訓(xùn)練過(guò)程中,當(dāng)數(shù)據(jù)進(jìn)入模型中后,大模型會(huì)像“客服中心”一樣,根據(jù)問(wèn)題的性質(zhì)被分配給最合適的專(zhuān)家來(lái)解決,可以提高查詢(xún)的計(jì)算效率。
此次,阿里開(kāi)的源模型有Dense模型,也有MoE模型。其中,開(kāi)源了兩個(gè) MoE 模型的權(quán)重:Qwen3-235B-A22B,一個(gè)擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的大模型,以及Qwen3-30B-A3B,一個(gè)擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型。
六個(gè) Dense 模型也已開(kāi)源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B?和 Qwen3-0.6B,均在 Apache 2.0 許可下開(kāi)源。可以直接商用。
Qwen 3系列的其中一個(gè)創(chuàng)新點(diǎn)在于其"混合型"模型設(shè)計(jì),可以在深度思考這種慢思考模式(用于復(fù)雜的邏輯推理、數(shù)學(xué)和編碼)和快思考模式(用于高效、通用的聊天) 之間的無(wú)縫切換 ,確保在各種場(chǎng)景下實(shí)現(xiàn)最佳性能。
這意味著,用戶(hù)終于不需要手動(dòng)操作開(kāi)啟并關(guān)閉“深度思考”功能,且擔(dān)心模型過(guò)度思考的問(wèn)題了,此前,很多大模型用戶(hù)反饋稱(chēng),大模型動(dòng)不動(dòng)就深度思考輸出長(zhǎng)篇大論,很多小問(wèn)題也如此完全沒(méi)必要。
關(guān)鍵在于,這種快慢思考靈活切換的模式能有效的降低成本,阿里在博客中稱(chēng):這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力。這樣的設(shè)計(jì)讓用戶(hù)能夠更輕松地為不同任務(wù)配置特定的預(yù)算,在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。
在部署方面,阿里稱(chēng)僅需4張H20即可部署千問(wèn)3滿血版,顯存占用僅為性能相近模型的三分之一。這意味著相比相比滿血版deepseek R1,部署成本大降75%~65%。
阿里介紹稱(chēng),Qwen3經(jīng)過(guò)了四階段的訓(xùn)練流程,相當(dāng)于,先教基礎(chǔ)→再練深度思考→混合快慢模式→最后全面優(yōu)化。阿里表示,Qwen3在工具調(diào)用、指令執(zhí)行和數(shù)據(jù)格式處理方面表現(xiàn)優(yōu)秀。建議搭配Qwen-Agent使用,它能簡(jiǎn)化工具調(diào)用的代碼實(shí)現(xiàn)。
此次,阿里還專(zhuān)門(mén)優(yōu)化了 Qwen3 模型的 Agent 和 代碼能力,同時(shí)也加強(qiáng)了對(duì) MCP 的支持。在示例中看到, Qwen3 可以絲滑的調(diào)用工具。
開(kāi)源正在成為阿里核心的AI戰(zhàn)略,從2023年起,阿里通義團(tuán)隊(duì)就陸續(xù)開(kāi)發(fā)了覆蓋0.5B、1.5B、3B、7B、14B、32B、72B、110B等參數(shù)的200多款「全尺寸」大模型。
在此前的一次采訪中,通義相關(guān)負(fù)責(zé)人曾告訴藍(lán)鯨新聞,“開(kāi)源不是目的而是結(jié)果。只有做出真正有競(jìng)爭(zhēng)力的產(chǎn)品,開(kāi)源才有意義。這倒逼我們必須做到兩點(diǎn):一是模型性能要達(dá)到全球SOTA水平,二是要能媲美甚至超越閉源模型。”