ПОБУДОВА СИСТЕМИ ІДЕНТИФІКАЦІЇ МОВЦІВ НА ОСНОВІ БІБЛІОТЕКИ АУДІООБРОБКИ PYANNOTE
DOI:
https://doi.org/10.32782/IT/2022-2-1Ключові слова:
система діаризації, бібліотека PyAnnote, машинне навчання, кластеризація, класифікація, аналіз аудіо, ідентифікація мовцяАнотація
У галузі машинного навчання одним із основних напрямків є опрацювання та розпізнавання мовлення. Серед важливих завдань роботи з аудіоданими є діаризація. Діаризація визначає часові межі в аудіозаписі, що належать окремим мовцям, тобто образно кажучи, вирішує задачу «коли хто говорить?». Проте відомі комерційні та відкриті засоби діаризації використовують кластеризацію сегментів, але не відповідають на питання «хто саме зараз говорить?». Існують системи, які ідентифікують мовця, але такі системи розраховані на те, що у аудіозапису присутній є лише один мовець. Тому актуальним завданням є створення системи діаризації, яка уможливлює ідентифікацію багатьох мовців, які довільним чином змінюються у аудіозаписах. У даному дослідженні запропоновано дві архітектури систем ідентифікації мовців на основі діаризації, які працюють відповідно на засадах по-сегментного та по-кластерного аналізу. Для побудови системи використано бібліотеку PyAnnote, що є у відкритому доступі. Верифікація роботи системи ідентифікації мовців здійснювалася на відкритій базі аудіозаписів AMI Corpus, у якому зібрано 100 годин анотованих та транскрибованих аудіо- та відеоданих. Розглянуто різні метрики оцінювання точності діаризації та, враховуючи специфіку розробленої системи, обґрунтовано доцільність застосування такої оцінки як F-Міра ідентифікації. Описано методику проведення досліджень, яка передбачала проведення трьох експериментів. Перший експеримент націлений на дослідження архітектури системи ідентифікації, що базується на по-сегментному аналізі, а другий експеримент – на дослідження архітектури, що застосовує по-кластерний аналіз. Третій експеримент стосується визначення оптимальної тривалості навчальної вибірки для класифікаторів системи ідентифікації. Результати експериментів показали, що по-кластерний підхід показав кращі результати ідентифікації порівняно із по-сегментним підходом. Також встановлено, що оптимальною тривалістю вибірки аудіоданих для тренування класифікатора під кожного конкретного мовця становить 20 секунд.
Посилання
Juang B., Rabiner Lawrence. Automatic Speech Recognition – A Brief History of the Technology Development. 2005.
Homayoon Beigi. Fundamentals of Speaker Recognition. New York: Springer. 2011.
Anguera Xavier, Bozonnet Simon, Evans Nicholas, та ін. Speaker Diarization: A Review of Recent Research. 2012. IEEE Transactions on Audio, Speech & Language Processing. DOI: 10.1109/TASL.2011.2125954.
Li Runxin, Schultz Tanja, Jin Qin. Improving speaker segmentation via speaker identification and text segmentation. 2009.
Bredin Herve, Yin Ruiqing, Coria Juan, Gelly Gregory, та ін. Pyannote.Audio: Neural Building Blocks for Speaker Diarization. 2020. DOI: 10.1109/ICASSP40776.2020.9052974.
Jin Qin, Laskowski Kornel, Schultz Tanja, Waibel Alex. Speaker segmentation and clustering in meetings. 2004.
Tanveer Md, Casabuena Diego, Karlgren Jussi, Jones Rosie. Unsupervised Speaker Diarization that is Agnostic to Language, Overlap-Aware, and Tuning Free. 2022. DOI: 10.21437/Interspeech.2022-10605.
Le Lan Gaël, Meignier Sylvain, Charlet Delphine, Deléglise Paul. Speaker diarization with unsupervised training framework. 2016. DOI: 10.1109/ICASSP.2016.7472741.
Dawalatabad Nauman, Madikeri Srikanth, Sekhar Chandra, Murthy Hema. Novel Architectures for Unsupervised Information Bottleneck based Speaker Diarization of Meetings. 2020.
Zhang Aonan, Wang Quan, Zhu Zhenyao, Paisley John, Wang Chong. Fully Supervised Speaker Diarization. 2019. DOI: 10.1109/ICASSP.2019.8683892.
Fini Enrico, Brutti Alessio. Supervised Online Diarization with Sample Mean Loss for Multi-Domain Data. 2020. DOI: 10.1109/ICASSP40776.2020.9053477.
Xie Weidi, Nagrani Arsha, Chung Joon Son, Zisserman Andrew. Utterance-level Aggregation for Speaker Recognition in the Wild. 2019. DOI: 10.1109/ICASSP.2019.8683120.
Herchonvicz Andrey L., Franco Cristiano R., Jasinski Marcio G.. A comparison of cloud-based speech recognition engines. 2019. DOI: 10.14210/cotb.v0n0.p366-375.
Ravanelli Mirco, Parcollet Titouan, Plantinga Peter, Rouhe Aku, та ін. SpeechBrain: A General-Purpose Speech Toolkit. 2021.
Giannakopoulos Theodoros. pyAudioAnalysis: An Open-Source Python Library for Audio Signal Analysis. 2015. DOI: 10.1371/journal.pone.0144610.
Bredin Hervé, Laurent Antoine. End-to-end speaker segmentation for overlap-aware resegmentation. 2021.
Wang Keke, Mao Xudong, Wu Hao, Ding Chen, та ін. The ByteDance Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2021. 2021.
Mao Huanru, McAuley Julian, Cottrell Garrison. Speech Recognition and Multi-Speaker Diarization of Long Conversations. 2020. DOI: 10.21437/Interspeech.2020-3039.
Inaguma Hirofumi, Yan Brian, Dalmia Siddharth, Guo Pengcheng, та ін. ESPnet-ST IWSLT 2021 Offline Speech Translation System. 2021.
Ueda Yushi, Maiti Soumi, Watanabe Shinji, Zhang Chunlei, та ін. EEND-SS: Joint End-to-End Neural Speaker Diarization and Speech Separation for Flexible Number of Speakers. 2022.
Bredin Hervé. pyannote.metrics: A Toolkit for Reproducible Evaluation, Diagnostic, and Error Analysis of Speaker Diarization Systems. 2017. DOI: 10.21437/Interspeech.2017-411.
Романюк Андрій. Векторні представлення слів для української мови. Науковий журнал «Україна Модерна». 2019. №27. DOI: 10.30970/uam.2019.27.1062
Snyder David, Garcia-Romero Daniel, Sell Gregory, Povey Daniel, Khudanpur Sanjeev. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018. DOI: 10.1109/ICASSP.2018.8461375.