忘忧草社区WWW日本直播,最好看的最新高清中文视频

藍(lán)鯨新聞4月30日訊（記者武靜靜）趕在了五一節(jié)前，阿里巴巴開(kāi)源新一代通義千問(wèn)模型 Qwen3。據(jù)介紹，其參數(shù)量?jī)H為 DeepSeek-R1 的 1/3，成本大幅下降，但性能表現(xiàn)不錯(cuò)。

報(bào)告顯示，Qwen3-235B-A22B?在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，超過(guò)了與DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球頂尖模型。成為了全球最強(qiáng)的開(kāi)源模型。

通過(guò)模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法，Qwen3實(shí)現(xiàn)了模型體積更小情況下，性能表現(xiàn)也比更大參數(shù)規(guī)模的Qwen2.5基礎(chǔ)模型要好。特別是在 STEM、編碼和推理等領(lǐng)域，Qwen3 Dense 基礎(chǔ)模型的表現(xiàn)甚至超過(guò)了更大規(guī)模的 Qwen2.5 模型。

博客中，阿里稱(chēng)，Qwen3 Dense 基礎(chǔ)模型的整體性能與參數(shù)更多的Qwen2.5基礎(chǔ)模型相當(dāng)。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。

有意思的是，除了擁有235B參數(shù)的MoE模型外，Qwen 3還配備了一個(gè)小型MoE模型，即Qwen3-30B-A3B。該模型的激活參數(shù)量為3B，不及QwQ-32B模型的10%，然而其性能卻更為出色。

我們可以把MoE架構(gòu)理解為一個(gè)大型的客服中心，其中有許多專(zhuān)門(mén)處理不同問(wèn)題的專(zhuān)家——有的專(zhuān)家專(zhuān)門(mén)處理技術(shù)問(wèn)題，有的專(zhuān)家處理賬單查詢(xún)，還有的專(zhuān)家負(fù)責(zé)解答產(chǎn)品使用問(wèn)題。在大模型訓(xùn)練過(guò)程中，當(dāng)數(shù)據(jù)進(jìn)入模型中后，大模型會(huì)像“客服中心”一樣，根據(jù)問(wèn)題的性質(zhì)被分配給最合適的專(zhuān)家來(lái)解決,可以提高查詢(xún)的計(jì)算效率。

此次，阿里開(kāi)的源模型有Dense模型，也有MoE模型。其中，開(kāi)源了兩個(gè) MoE 模型的權(quán)重：Qwen3-235B-A22B，一個(gè)擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的大模型，以及Qwen3-30B-A3B，一個(gè)擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型。

六個(gè) Dense 模型也已開(kāi)源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B?和 Qwen3-0.6B，均在 Apache 2.0 許可下開(kāi)源。可以直接商用。

Qwen 3系列的其中一個(gè)創(chuàng)新點(diǎn)在于其"混合型"模型設(shè)計(jì)，可以在深度思考這種慢思考模式（用于復(fù)雜的邏輯推理、數(shù)學(xué)和編碼）和快思考模式（用于高效、通用的聊天）之間的無(wú)縫切換，確保在各種場(chǎng)景下實(shí)現(xiàn)最佳性能。

這意味著，用戶(hù)終于不需要手動(dòng)操作開(kāi)啟并關(guān)閉“深度思考”功能，且擔(dān)心模型過(guò)度思考的問(wèn)題了，此前，很多大模型用戶(hù)反饋稱(chēng)，大模型動(dòng)不動(dòng)就深度思考輸出長(zhǎng)篇大論，很多小問(wèn)題也如此完全沒(méi)必要。

關(guān)鍵在于，這種快慢思考靈活切換的模式能有效的降低成本，阿里在博客中稱(chēng)：這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力。這樣的設(shè)計(jì)讓用戶(hù)能夠更輕松地為不同任務(wù)配置特定的預(yù)算，在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

在部署方面，阿里稱(chēng)僅需4張H20即可部署千問(wèn)3滿血版，顯存占用僅為性能相近模型的三分之一。這意味著相比相比滿血版deepseek R1，部署成本大降75%～65%。

阿里介紹稱(chēng)，Qwen3經(jīng)過(guò)了四階段的訓(xùn)練流程，相當(dāng)于，先教基礎(chǔ)→再練深度思考→混合快慢模式→最后全面優(yōu)化。阿里表示，Qwen3在工具調(diào)用、指令執(zhí)行和數(shù)據(jù)格式處理方面表現(xiàn)優(yōu)秀。建議搭配Qwen-Agent使用，它能簡(jiǎn)化工具調(diào)用的代碼實(shí)現(xiàn)。

此次，阿里還專(zhuān)門(mén)優(yōu)化了 Qwen3 模型的 Agent 和代碼能力，同時(shí)也加強(qiáng)了對(duì) MCP 的支持。在示例中看到， Qwen3 可以絲滑的調(diào)用工具。

開(kāi)源正在成為阿里核心的AI戰(zhàn)略，從2023年起，阿里通義團(tuán)隊(duì)就陸續(xù)開(kāi)發(fā)了覆蓋0.5B、1.5B、3B、7B、14B、32B、72B、110B等參數(shù)的200多款「全尺寸」大模型。

在此前的一次采訪中，通義相關(guān)負(fù)責(zé)人曾告訴藍(lán)鯨新聞，“開(kāi)源不是目的而是結(jié)果。只有做出真正有競(jìng)爭(zhēng)力的產(chǎn)品，開(kāi)源才有意義。這倒逼我們必須做到兩點(diǎn)：一是模型性能要達(dá)到全球SOTA水平，二是要能媲美甚至超越閉源模型。”

AI財(cái)評(píng)

【財(cái)經(jīng)銳評(píng)】阿里Qwen3開(kāi)源模型以"小體積高性?xún)r(jià)比"破局大模型商業(yè)化困境阿里此次開(kāi)源Qwen3系列模型展現(xiàn)出清晰的商業(yè)化路徑：1）通過(guò)MoE架構(gòu)創(chuàng)新實(shí)現(xiàn)"降本增效"，235B參數(shù)模型僅需4張H20顯卡部署，成本較競(jìng)品降低65%-75%，直擊企業(yè)最敏感的TCO（總擁有成本）痛點(diǎn)；2）獨(dú)創(chuàng)"快慢思考"動(dòng)態(tài)切換機(jī)制，在保證復(fù)雜任務(wù)性能的同時(shí)優(yōu)化推理效率，這種彈性計(jì)算設(shè)計(jì)可顯著降低API調(diào)用成本；3）全尺寸矩陣化產(chǎn)品布局（0.6B-235B）覆蓋從邊緣計(jì)算到云端的不同場(chǎng)景，配合Apache 2.0開(kāi)源協(xié)議，快速構(gòu)建開(kāi)發(fā)者生態(tài)。值得關(guān)注的是，其30B-A3B小模型性能超越32B稠密模型，印證了"模型效率＞絕對(duì)規(guī)模"的行業(yè)新趨勢(shì)。這既是對(duì)Meta等海外巨頭的技術(shù)反擊，更是為即將到來(lái)的AI公有云價(jià)格戰(zhàn)儲(chǔ)備"低成本武器"。不過(guò)，開(kāi)源策略能否轉(zhuǎn)化為云業(yè)務(wù)收入，仍需觀察其企業(yè)級(jí)工具鏈的變現(xiàn)能力。當(dāng)前節(jié)點(diǎn)釋放重磅開(kāi)源模型，或?yàn)镼3季度云棲大會(huì)的商業(yè)化版本埋下伏筆。

国产AV一区二区三区无码野战,欧美日韩国产成人高清视频,成人三级视频在线观看不卡,成人中文乱幕日产无线码

阿里發(fā)布最強(qiáng)開(kāi)源模型Qwen 3，參數(shù)量?jī)H為DeepSeek-R1的1/3

藍(lán)鯨新聞