近日,深圳北理莫斯科大學(xué)計(jì)算數(shù)學(xué)與控制系教授張振躍取得重要科研突破。其作為第一作者、以深圳北理莫斯科大學(xué)為第一單位的研究論文《Global understanding via local extraction for data clustering and visualization》,在國(guó)際頂級(jí)學(xué)術(shù)期刊《Patterns》(CELL出版社子刊)上發(fā)表。該研究聚焦復(fù)雜無(wú)標(biāo)簽數(shù)據(jù)聚類(lèi)與可視化難題,提出GULE框架,通過(guò)類(lèi)一致的局部提取、全局傳播以及自我學(xué)習(xí),實(shí)現(xiàn)高精度聚類(lèi)(如 RNA-seq 數(shù)據(jù)細(xì)胞類(lèi)型鑒定)和拓?fù)浣Y(jié)構(gòu)保留可視化,為生物醫(yī)學(xué)等領(lǐng)域提供新工具,推動(dòng)多學(xué)科數(shù)據(jù)模式發(fā)現(xiàn)。

在當(dāng)今大數(shù)據(jù)時(shí)代,從復(fù)雜數(shù)據(jù)中提取潛在類(lèi)別信息是科學(xué)研究領(lǐng)域的重要挑戰(zhàn)。無(wú)論是生物醫(yī)學(xué)中的細(xì)胞分類(lèi),還是社交網(wǎng)絡(luò)中的用戶(hù)行為分析,傳統(tǒng)的聚類(lèi)方法往往依賴(lài)于對(duì)數(shù)據(jù)結(jié)構(gòu)或分布的強(qiáng)假設(shè),然而,現(xiàn)實(shí)數(shù)據(jù)通常具有高度復(fù)雜性,缺乏明確的分布規(guī)律,導(dǎo)致現(xiàn)有算法的準(zhǔn)確性和魯棒性受限。如何在不依賴(lài)預(yù)設(shè)條件的情況下,從原始數(shù)據(jù)的局部關(guān)聯(lián)中挖掘潛在類(lèi)別,成為亟待解決的問(wèn)題。

圖1:GULE框架概述
GULE(Global Understanding via Local Extraction)框架基于“局部一致性提取-全局傳播”的核心原理,通過(guò)兩層自學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn)類(lèi)結(jié)構(gòu)解析。該方法通過(guò)兩個(gè)核心步驟實(shí)現(xiàn):一是局部提取,從數(shù)據(jù)的局部連接中捕捉類(lèi)別一致性,無(wú)需預(yù)先假設(shè)數(shù)據(jù)結(jié)構(gòu);二是全局傳播,將局部發(fā)現(xiàn)的一致性信息通過(guò)全局網(wǎng)絡(luò)傳遞和自我學(xué)習(xí),最終形成完整的類(lèi)別劃分。研究人員通過(guò)理論分析證明,GULE能夠高精度地還原數(shù)據(jù)中的潛在類(lèi)別。此外,該方法還可用于數(shù)據(jù)可視化,在降維過(guò)程中保留類(lèi)別的拓?fù)浣Y(jié)構(gòu)。實(shí)驗(yàn)表明,GULE在聚類(lèi)準(zhǔn)確性和可視化可靠性上均顯著優(yōu)于傳統(tǒng)方法,尤其在生物醫(yī)學(xué)等復(fù)雜數(shù)據(jù)場(chǎng)景中表現(xiàn)突出。

圖2:小鼠腦數(shù)據(jù)集上的腦細(xì)胞聚類(lèi)方法性能對(duì)比
GULE通過(guò)三項(xiàng)關(guān)鍵技術(shù),為復(fù)雜數(shù)據(jù)處理開(kāi)辟了新路徑。首先為自適應(yīng)圖切割(Acut),通過(guò)參數(shù)β調(diào)節(jié)類(lèi)內(nèi)連接最大化與類(lèi)間連接最小化的平衡,適應(yīng)不同密度和結(jié)構(gòu)的數(shù)據(jù)集。其次是漸進(jìn)式學(xué)習(xí):兩層投影逐步優(yōu)化類(lèi)一致性,第一層處理原始數(shù)據(jù)的稀疏圖,第二層針對(duì)低維投影的密集圖進(jìn)一步細(xì)化,提升聚類(lèi)精度。最后通過(guò)拓?fù)浔A艨梢暬?,結(jié)合t-SNE等技術(shù),將原始數(shù)據(jù)與GULE投影結(jié)合,在降維中保留類(lèi)內(nèi)拓?fù)浣Y(jié)構(gòu),如COIL20數(shù)據(jù)集的環(huán)狀結(jié)構(gòu)和PIE數(shù)據(jù)集的線(xiàn)性模式。

圖3:基于GULE投影的數(shù)據(jù)可視化拓?fù)湓鰪?qiáng)
GULE的核心創(chuàng)新在于擺脫了對(duì)數(shù)據(jù)分布的傳統(tǒng)假設(shè),僅借助局部關(guān)聯(lián)來(lái)挖掘全局模式。這一突破性理念為處理現(xiàn)實(shí)世界中的非結(jié)構(gòu)化數(shù)據(jù)開(kāi)辟了全新路徑。這項(xiàng)研究不僅推動(dòng)了無(wú)監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展,也為跨學(xué)科復(fù)雜數(shù)據(jù)分析提供了實(shí)用工具。未來(lái),GULE或?qū)⒊蔀閿?shù)據(jù)驅(qū)動(dòng)研究的重要基石,為生物學(xué)、醫(yī)學(xué)等領(lǐng)域的多樣化應(yīng)用提供新見(jiàn)解。
論文鏈接:https://www.cell.com/patterns/fulltext/S2666-3899(25)00114-X