
Speaker localization and speech separation in two echoic mixtures


We are developing two crucial improvements on the time-frequency masking approach to the blind speech separation of underdetermined mixtures when processing anechoic and echoic mixtures. First, the proposed method copes with the usually large amount of delay estimation error that appears in a low frequency band. This step generates a restrictive mask for phase delays on the basis of local and global energy distribution analysis. This mask allows the selected cells to contribute to the orientation histogram. Second, the strong WDO assumption (disjoint orthogonal frequency domain) is relaxed by allowing some frequency bins to be shared by both sources. By detecting fundamental frequencies of speakers at instantaneous time points, mask creation is supported by exploring their harmonic frequencies. The proposed method is proved to be effective and reliable in conducting experiments with both simulated and real-life mixtures.

Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu

Santrauka. Straipsnyje nagrinėjamas aklasis signalų šaltinių išskyrimas apdorojant signalų mišinius su aido efektu ar be jo. Detaliai pristatomi matematiškai bei eksperimentų su dirbtiniais ir realiais šnekos duomenimis rezultatais pagrindžiami du esminiai šio metodo patobulinimai. Pirmasis patobulinimas leidžia sumažinti vėlinimo žemuose dažniuose įtaką šnekos signalo išskyrimo klaidai. Antrasis patobulinimas, paremtas kalbėtojo pagrin­dinio dažnio sekimu, leidžia algoritmui išnaudoti tas pačias dažnių sritis skirtingiems signalų šaltiniams išskirti.

Raktiniai žodžiai: šaltinių aklasis atskyrimas; histogramos klasterizavimas; spektrogramos analizė; kalbos rekonstravimas; maskavimas laiko ir dažnių skalėje.

Keyword : blind source separation, histogram clustering, spectrogram analysis, speech reconstruction, time-frequency masking

