同時(shí),火山引擎還推出了扣子核心能力的開(kāi)源計(jì)劃,以及企業(yè)自有模型托管方案等一系列工具,旨在為企業(yè)和開(kāi)發(fā)者打造Agent、推動(dòng)AI應(yīng)用落地提供全方位、全棧式的支持。

文字編輯|宋雨涵

1

雙模型突破

SeedEdit 3.0重構(gòu)圖像編輯邏輯

還記得那些年我們?yōu)榱薖一張圖而苦苦學(xué)習(xí)Photoshop的日子嗎?或者為了一個(gè)簡(jiǎn)單的圖片修改需求,不得不求助于專業(yè)設(shè)計(jì)師的尷尬?豆包最新圖像編輯模型的發(fā)布,正在悄然改變這一切。

該模型通過(guò)三重能力升級(jí),徹底改變?nèi)藱C(jī)協(xié)作的修圖模式:

更強(qiáng)指令遵循能力:精準(zhǔn)解析自然語(yǔ)言指令,理解如“將西裝材質(zhì)換成燈芯絨并保持褶皺自然”的復(fù)雜要求

更強(qiáng)圖像保持能力:確保修改僅針對(duì)目標(biāo)區(qū)域,避免誤改

更強(qiáng)圖像生成質(zhì)量:輸出效果自然無(wú)AI痕跡,達(dá)到商業(yè)級(jí)視覺(jué)標(biāo)準(zhǔn)

“用戶只需通過(guò)自然語(yǔ)言指令,就能完成消除多余內(nèi)容、改變光影效果、替換文字等操作,甚至實(shí)現(xiàn)圖像風(fēng)格轉(zhuǎn)換、變換材質(zhì)、變化人物姿勢(shì)等創(chuàng)意場(chǎng)景?!被鹕揭婕夹g(shù)負(fù)責(zé)人在演示中介紹。

在實(shí)際應(yīng)用層面,這款模型已經(jīng)引起了多個(gè)行業(yè)的關(guān)注。電商行業(yè)可以用它快速生成產(chǎn)品展示圖;媒體行業(yè)可以用它進(jìn)行新聞圖片的即時(shí)編輯;教育行業(yè)可以用它制作生動(dòng)的教學(xué)素材。更重要的是,它大大降低了創(chuàng)意表達(dá)的門(mén)檻,讓更多人能夠?qū)⒆约旱南胂罅D(zhuǎn)化為視覺(jué)作品。

語(yǔ)言無(wú)界,

豆包同傳模型打破溝通壁壘

在國(guó)際溝通領(lǐng)域,傳統(tǒng)同傳系統(tǒng)依賴“級(jí)聯(lián)模型”架構(gòu)——語(yǔ)音識(shí)別、機(jī)器翻譯、語(yǔ)音合成等多個(gè)模塊串聯(lián)工作,導(dǎo)致翻譯延遲高達(dá)8-10秒。當(dāng)聽(tīng)眾聽(tīng)到翻譯時(shí),演講者可能已進(jìn)入下一個(gè)話題。

豆包·同聲傳譯模型2.0采用全雙工框架,實(shí)現(xiàn)邊聽(tīng)邊說(shuō)。將語(yǔ)音延遲從8-10秒降低到2-3秒,接近人類同傳譯員水平。

更突破性的是其0樣本聲音復(fù)刻功能:無(wú)需提前錄制,系統(tǒng)在翻譯過(guò)程中實(shí)時(shí)捕捉說(shuō)話者音色特征,讓同一個(gè)人以相同音色說(shuō)外語(yǔ),甚至匹配方言口音。

2

豆包大模型升級(jí)

速度與成本的極致平衡

作為AI應(yīng)用的基礎(chǔ)設(shè)施,大模型性能直接影響企業(yè)智能化轉(zhuǎn)型成效?;鹕揭娲舜稳嫔?jí)豆包大模型1.6系列,在速度、成本和多模態(tài)能力上實(shí)現(xiàn)突破。

Doubao-Seed-1.6-flash極速版成為最大亮點(diǎn)。該模型專為大規(guī)模商業(yè)化場(chǎng)景設(shè)計(jì),在保持強(qiáng)大視覺(jué)理解能力的同時(shí),強(qiáng)化代碼、推理、數(shù)學(xué)等核心能力。

其性能參數(shù)令人印象深刻:TPOT(首Token輸出時(shí)間)低至10ms,為業(yè)界領(lǐng)先水平。在0-32k輸入文本長(zhǎng)度區(qū)間(企業(yè)最常用場(chǎng)景),成本降至每百萬(wàn)tokens輸入0.15元、輸出1.5元。

在實(shí)際客戶案例中,該模型幫助企業(yè)延遲下降60%,成本降低70%。對(duì)部署數(shù)萬(wàn)終端的大型企業(yè),這意味著每年節(jié)省數(shù)千萬(wàn)元計(jì)算成本。

同時(shí)亮相的全模態(tài)向量化模型Seed1.6-Embedding首次實(shí)現(xiàn)“文本+圖像+視頻”混合模態(tài)融合檢索。在權(quán)威測(cè)評(píng)中,該模型包攬多模態(tài)全面任務(wù)及中文文本的最優(yōu)成績(jī),為企業(yè)構(gòu)建新一代多模態(tài)知識(shí)庫(kù)提供核心引擎。

三、加速Agent開(kāi)發(fā)開(kāi)源生態(tài)與效率革命

模型能力的釋放依賴開(kāi)發(fā)工具和基礎(chǔ)設(shè)施?;鹕揭娲舜卧贏I云原生服務(wù)端發(fā)力,構(gòu)建了從開(kāi)發(fā)到部署的全棧解決方案。

7月26日,AI Agent開(kāi)發(fā)平臺(tái)扣子核心能力正式開(kāi)源,成為開(kāi)發(fā)者社區(qū)熱議焦點(diǎn)。開(kāi)源項(xiàng)目包括:

采用Apache 2.0許可證開(kāi)源僅三天,Coze Studio在GitHub星標(biāo)數(shù)破萬(wàn),Coze Loop超3000星標(biāo)。開(kāi)發(fā)者可在火山引擎云基礎(chǔ)產(chǎn)品上一鍵拉起資源完成部署,大幅降低Agent開(kāi)發(fā)門(mén)檻。

對(duì)于有模型定制需求的企業(yè),火山引擎推出企業(yè)自有模型托管方案。企業(yè)無(wú)需運(yùn)維底層GPU資源及復(fù)雜配置,實(shí)現(xiàn)自研模型全托管,享受彈性算力,精準(zhǔn)控制時(shí)延,且無(wú)需為業(yè)務(wù)低谷期付費(fèi)。

傳統(tǒng)Agent開(kāi)發(fā)需要460行代碼,耗時(shí)1-2天,現(xiàn)在縮減至60行代碼,1小時(shí)內(nèi)完成?!逼錁O大的提升了開(kāi)發(fā)效率。

另外火山引擎也為Coze開(kāi)源版提供了全面支持。企業(yè)AI平臺(tái)產(chǎn)品HiAgent,可調(diào)用Coze開(kāi)源版提供的智能體搭建和運(yùn)維能力,并通過(guò)共享Agent標(biāo)準(zhǔn),支持扣子開(kāi)源版智能體的納管。

火山引擎的云基礎(chǔ)產(chǎn)品,也將為扣子開(kāi)源版提供高效、穩(wěn)定、可靠的基礎(chǔ)設(shè)施支持,開(kāi)發(fā)者可以一鍵拉起資源,完成部署。

結(jié)語(yǔ):

火山引擎此次以模型能力突破、開(kāi)發(fā)效率革命、開(kāi)源生態(tài)共建三位一體的戰(zhàn)略級(jí)發(fā)布,標(biāo)志著AI技術(shù)落地進(jìn)入全新階段。圖像編輯與同傳模型的進(jìn)化不僅解決了垂直場(chǎng)景的核心痛點(diǎn),更通過(guò)Responses API實(shí)現(xiàn)7倍開(kāi)發(fā)效率躍升,配合扣子平臺(tái)開(kāi)源及企業(yè)模型托管方案,構(gòu)建了覆蓋“模型-工具-部署”的完整產(chǎn)業(yè)閉環(huán)。

分享到

lixiangjing

算力豹主編

相關(guān)推薦