国产AV一区二区三区无码野战,欧美日韩国产成人高清视频,成人三级视频在线观看不卡,成人中文乱幕日产无线码

阿里發(fā)布最強(qiáng)開(kāi)源模型Qwen 3,參數(shù)量?jī)H為DeepSeek-R1的1/3

藍(lán)鯨新聞4月30日訊(記者 武靜靜)趕在了五一節(jié)前,阿里巴巴開(kāi)源新一代通義千問(wèn)模型 Qwen3。據(jù)介紹,其參數(shù)量?jī)H為 DeepSeek-R1 的 1/3,成本大幅下降,但性能表現(xiàn)不錯(cuò)。

報(bào)告顯示,Qwen3-235B-A22B?在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,超過(guò)了與DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球頂尖模型。成為了全球最強(qiáng)的開(kāi)源模型。

通過(guò)模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法,Qwen3實(shí)現(xiàn)了模型體積更小情況下,性能表現(xiàn)也比更大參數(shù)規(guī)模的Qwen2.5基礎(chǔ)模型要好。特別是在 STEM、編碼和推理等領(lǐng)域,Qwen3 Dense 基礎(chǔ)模型的表現(xiàn)甚至超過(guò)了更大規(guī)模的 Qwen2.5 模型。

博客中,阿里稱(chēng),Qwen3 Dense 基礎(chǔ)模型的整體性能與參數(shù)更多的Qwen2.5基礎(chǔ)模型相當(dāng)。例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。

有意思的是,除了擁有235B參數(shù)的MoE模型外,Qwen 3還配備了一個(gè)小型MoE模型,即Qwen3-30B-A3B。該模型的激活參數(shù)量為3B,不及QwQ-32B模型的10%,然而其性能卻更為出色。

我們可以把MoE架構(gòu)理解為一個(gè)大型的客服中心,其中有許多專(zhuān)門(mén)處理不同問(wèn)題的專(zhuān)家——有的專(zhuān)家專(zhuān)門(mén)處理技術(shù)問(wèn)題,有的專(zhuān)家處理賬單查詢(xún),還有的專(zhuān)家負(fù)責(zé)解答產(chǎn)品使用問(wèn)題。在大模型訓(xùn)練過(guò)程中,當(dāng)數(shù)據(jù)進(jìn)入模型中后,大模型會(huì)像“客服中心”一樣,根據(jù)問(wèn)題的性質(zhì)被分配給最合適的專(zhuān)家來(lái)解決,可以提高查詢(xún)的計(jì)算效率。

此次,阿里開(kāi)的源模型有Dense模型,也有MoE模型。其中,開(kāi)源了兩個(gè) MoE 模型的權(quán)重:Qwen3-235B-A22B,一個(gè)擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的大模型,以及Qwen3-30B-A3B,一個(gè)擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型。

六個(gè) Dense 模型也已開(kāi)源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B?和 Qwen3-0.6B,均在 Apache 2.0 許可下開(kāi)源。可以直接商用。

Qwen 3系列的其中一個(gè)創(chuàng)新點(diǎn)在于其"混合型"模型設(shè)計(jì),可以在深度思考這種慢思考模式(用于復(fù)雜的邏輯推理、數(shù)學(xué)和編碼)和快思考模式(用于高效、通用的聊天) 之間的無(wú)縫切換 ,確保在各種場(chǎng)景下實(shí)現(xiàn)最佳性能。

這意味著,用戶(hù)終于不需要手動(dòng)操作開(kāi)啟并關(guān)閉“深度思考”功能,且擔(dān)心模型過(guò)度思考的問(wèn)題了,此前,很多大模型用戶(hù)反饋稱(chēng),大模型動(dòng)不動(dòng)就深度思考輸出長(zhǎng)篇大論,很多小問(wèn)題也如此完全沒(méi)必要。

關(guān)鍵在于,這種快慢思考靈活切換的模式能有效的降低成本,阿里在博客中稱(chēng):這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力。這樣的設(shè)計(jì)讓用戶(hù)能夠更輕松地為不同任務(wù)配置特定的預(yù)算,在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

在部署方面,阿里稱(chēng)僅需4張H20即可部署千問(wèn)3滿血版,顯存占用僅為性能相近模型的三分之一。這意味著相比相比滿血版deepseek R1,部署成本大降75%~65%。

阿里介紹稱(chēng),Qwen3經(jīng)過(guò)了四階段的訓(xùn)練流程,相當(dāng)于,先教基礎(chǔ)→再練深度思考→混合快慢模式→最后全面優(yōu)化。阿里表示,Qwen3在工具調(diào)用、指令執(zhí)行和數(shù)據(jù)格式處理方面表現(xiàn)優(yōu)秀。建議搭配Qwen-Agent使用,它能簡(jiǎn)化工具調(diào)用的代碼實(shí)現(xiàn)。

此次,阿里還專(zhuān)門(mén)優(yōu)化了 Qwen3 模型的 Agent 和 代碼能力,同時(shí)也加強(qiáng)了對(duì) MCP 的支持。在示例中看到, Qwen3 可以絲滑的調(diào)用工具。

開(kāi)源正在成為阿里核心的AI戰(zhàn)略,從2023年起,阿里通義團(tuán)隊(duì)就陸續(xù)開(kāi)發(fā)了覆蓋0.5B、1.5B、3B、7B、14B、32B、72B、110B等參數(shù)的200多款「全尺寸」大模型。

在此前的一次采訪中,通義相關(guān)負(fù)責(zé)人曾告訴藍(lán)鯨新聞,“開(kāi)源不是目的而是結(jié)果。只有做出真正有競(jìng)爭(zhēng)力的產(chǎn)品,開(kāi)源才有意義。這倒逼我們必須做到兩點(diǎn):一是模型性能要達(dá)到全球SOTA水平,二是要能媲美甚至超越閉源模型。

AI財(cái)評(píng)
【財(cái)經(jīng)銳評(píng)】阿里Qwen3開(kāi)源模型以"小體積高性?xún)r(jià)比"破局大模型商業(yè)化困境 阿里此次開(kāi)源Qwen3系列模型展現(xiàn)出清晰的商業(yè)化路徑:1)通過(guò)MoE架構(gòu)創(chuàng)新實(shí)現(xiàn)"降本增效",235B參數(shù)模型僅需4張H20顯卡部署,成本較競(jìng)品降低65%-75%,直擊企業(yè)最敏感的TCO(總擁有成本)痛點(diǎn);2)獨(dú)創(chuàng)"快慢思考"動(dòng)態(tài)切換機(jī)制,在保證復(fù)雜任務(wù)性能的同時(shí)優(yōu)化推理效率,這種彈性計(jì)算設(shè)計(jì)可顯著降低API調(diào)用成本;3)全尺寸矩陣化產(chǎn)品布局(0.6B-235B)覆蓋從邊緣計(jì)算到云端的不同場(chǎng)景,配合Apache 2.0開(kāi)源協(xié)議,快速構(gòu)建開(kāi)發(fā)者生態(tài)。 值得關(guān)注的是,其30B-A3B小模型性能超越32B稠密模型,印證了"模型效率>絕對(duì)規(guī)模"的行業(yè)新趨勢(shì)。這既是對(duì)Meta等海外巨頭的技術(shù)反擊,更是為即將到來(lái)的AI公有云價(jià)格戰(zhàn)儲(chǔ)備"低成本武器"。不過(guò),開(kāi)源策略能否轉(zhuǎn)化為云業(yè)務(wù)收入,仍需觀察其企業(yè)級(jí)工具鏈的變現(xiàn)能力。當(dāng)前節(jié)點(diǎn)釋放重磅開(kāi)源模型,或?yàn)镼3季度云棲大會(huì)的商業(yè)化版本埋下伏筆。
国产精品色午夜免费视频| 亚洲精品色婷婷在线影院| 在线观看片A免费不卡观看| 熟妇人妻一区二区三区四区| 中文字幕在线免费看线人| 无码激情做A爰片毛片A片蜜桃|