W ponad 99 proc. przypadków zaledwie dwa krótkie słowa wystarczą ludziom, aby rozpoznać głos bliskiej osoby. Żaden komputerowy system do identyfikacji dźwięków nie jest w stanie im dorównać.

Do takiego wniosku doszedł Julien Plante-Hébert z Uniwersytetu w Montrealu. W swoim badaniu odtwarzał francuskojęzycznym Kanadyjczykom nagrania audio, na którym zarejestrowano dziesięć głosów męskich. Uczestnicy badania mieli za zadanie rozpoznać, który z tych głosów należał do osoby, którą znają. Okazało się, że do poprawnego rozpoznania potrzebowali jedynie czterech sylab, z tylu bowiem sylab składa się na zwrot: “Merci beaucoup” (Dziękuję bardzo). Zdaniem Plante-Héberta, ludzie posiadają wyjątkowe zdolności, jeśli chodzi o identyfikowanie znajomych głosów. – Noworodki od razu po urodzeniu są w stanie rozpoznać głos matki i rozróżnić brzmienie języka, którym ona się posługuje, od innych języków – tłumaczy badacz. Zainspirowany tą obserwacją, Plante- Hébert stworzył serię głosowych “line-upów”. Jest to technika wzorowana na popularnej procedurze identyfikacji wizualnej stosowanej przez policję, w ramach której grupa ludzi o podobnych cechach fizycznych jest pokazywana świadkowi, a następnie ma on wśród nich zidentyfikować sprawcę przestępstwa.

Line-up głosowy jest oparty na podobnej zasadzie – osobie badanej jest prezentowanych kilka głosów o podobnych cechach akustycznych. W badaniu przeprowadzonym przez Plante- Héberta każda próbka głosowa zawierała wypowiedzi o różnej długości – od jednej do osiemnastu sylab. Stopień znajomości każdego głosu przez osobę badaną był ustalany na podstawie częstości kontaktu pomiędzy osobą, udzielającą głosu do próbki, a osobą badaną. W badaniu wzięły udział 44 osoby w wieku od 18 do 65 lat. Wyniki badania wskazują, że osoby badane nie są w stanie zidentyfikować głosu, gdy wypowiedzi były krótsze niż cztery sylaby i to niezależnie od stopnia znajomości, jaki wiązał je z osobami udzielającymi głosu. Natomiast w przypadku wypowiedzi składającej się z minumim czterech sylab, osoby badane odpowiadały niemal bezbłędnie.

Co zaskakujące, poprawność odpowiedzi materiale językowym złożonym z minimum czterech sylab była tak wysoka, że przewyższyła trafność odpowiedzi udzielanych przez komputerowe systemy identyfikacji głosu! Te ostatnie miały bowiem 92 procentową skuteczność, gdy tymczasem poprawność odpowiedzi udzialanych przez osoby badane sięgała 99,9 proc. Wyższość ludzi nad maszynami była widoczna szczegóonie wtedy, gdy na nagraniu głosowi lektora towarzyszyły dźwięki zakłócające w tle.

Joanna Kołak