©copyright Raimo Olavi Toivonen 1985-2023. All rights reserved. Last updated on  Jan 21, 2023.

Psychoacoustic links to "en.wikipedia.org/wiki":   Psychoacoustics   Auditory   Auditive   Auditory phonetics   Auditory system anatomy   Sone scale   Phon scale   Loudness   Equal-loudness contours   Fletcher-Munson curves   Bark scale   Critical bands   Auditory Filters   ERB scale (Equivalent rectangular bandwidth)   Mel scale   Semitone scale   Hertz scale   Sound pressure   SPL (Sound pressure level)   Stevens's power law   Stanley Smith Stevens   Harvey Fletcher   Karl Eberhard Zwicker

a

Intelligent Speech Analyser™ (ISA) software and it's unique speech, sound and signal analysis methods

Google Scholar "Intelligent Speech Analyser"

The main scopes of application include:

- Phonetics Phonetics
- Phoniatrics Phoniatrics
- Vocology Vocology
- Logopedics Logopedics
- Audiology Audiology

- Speech analysis Speech analysis
- Voice analysis Voice analysis
- Singing analysis Singing analysis
- Music analysis Music analysis
- Music instrument analysis Musical instrument analysis
- Children's crying analysis Children's crying analysis
- Lung sounds analysis Lung sounds analysis
- Heart sounds analysis Heart sounds analysis
- Bird songs analysis Bird songs analysis
- Emotions in voice analysis Emotions in voice analysis

- Sound editing Sound editing
- Signal analysis Signal analysis
- Signal processing Signal processing
- Geology signals analysis Geology signals analysis
- Earth coughing signals analysis Earth coughing signals analysis
- Vulcano signals analysis Vulcano signals analysis
- Astronomy signals analysis Astronomy signals analysis
- Muscle signals analysis Electromyography
- EEG signals analysis EEG analysis

Intelligent Speech Analyser™
(ISA) is the unique software in the world. It´s use is very simple. All the analyses have their own windows. All the functions are controlled by the mouse. All the displays can be listened to.
Software is running in Apple Macintosh computer. Macintosh is a trademark of Apple Computer, Inc.

Over the years, I have coded as a DSP man speech analysis methods of the Intelligent Speech Analyser™ (ISA) program
(1) for the Texas 16-bit TMS320 signal processor family in machine language,
(2) for Motorola's 16 and 32-bit M68000 microprocessor families in machine language and C language,
(3) for IBM 600 Series 32-bit PowerPC Microprocessor Family in machine language and C language,
(4) for Intel 32-bit and 64-bit microprocessor families in C++ language.

Analysis pictures I have coded from the very beginning in Neon object-oriented programming language.

Speech Analysis Methods.

a

  • Signal display and speech amplitude envelope display  with segment lines

    Signal x(n) = xa(nT), n=0...N-1, T is sample period, xa= analog signal. Amplitude envelope = 10log10(x(n)2), n=0...N-1. If xa is the voltage of the microphone, then xa(nT) = kPa(nT), where Pa is the pressure and k is the constant factor. SPLdb = 10log10(SUM(x(n)2)/N), n=0...N-1.

  • Signaalinäyttö ja puheen monen amplitudiverhokäyrän näyttö segmenttiviivojen kera.

    a

  • FFT näyttö, 512 kanavaa, taustakuvat, suuri dynamiikka, monta aikaikkunaa.
  • FFT spektrisarjanäyttö.

    a

  • Kepstritasoitettu FFT näyttö.

    a

  • LPC näyttö, analyysi näyttää formanttien paikat ja mittaa formanttien arvot, 512 kanavaa, aste 2-60, taustakuvat, monta aikaikkunaa.
  • LPC spektrisarjanäyttö.
  • LPC spektrogramminäytöt, segmenttiviivojen kera.

    a

  • Auditorinen spektrinäyttö, taustakuvat, 48, 120, 240, 480 kanavaa.
  • Auditorinen spektrinäyttö äänekkyysasteikolla, 48 kanavaa, taustakuvat.
  • Auditorinen spektrogramminäyttö, 2, 6 erilaista näyttöä, 48 kanavaa, segmenttiviivojen kera.
  • Auditorinen spektrisarjanäyttö, 48 kanavaa.

    Käsitteet "auditorinen" (auditory) ja "auditiivinen" (auditive) ovat eri käsitteitä. ISA:ssa käytetään nimenomaan käsitettä "auditorinen" (auditory).

    a

  • Kepstrinäyttö vaakatason Hz-asteikolla, 512 kanavaa, taustakuvat, monta aikaikkunaa.
  • Kepstrisarjanäyttö, 512 kanavaa, monta aikaikkunaa.

    a

  • Keskiarvospektri (LTAS) näyttö, 512 kanavaa, suuri dynamiikka, monta aikaikkunaa, taustakuva.
  • Normalisoitava keskiarvospektri (LTAS). Suuren LTAS-spektrijoukon keskiarvotus. Jotta LTAS-spektrit voidaan keskiarvottaa keskenään ne täytyy ensin nostaa vakiodesibelimäärään ja muuttaa sen jälkeen teholliseen muotoon.

    a

  • Laajakaistainen FFT spektrogramminäyttö.
  • Lyhytaikainen laajakaistainen FFT spektrogramminäyttö.
  • Kapeakaistainen FFT spektrogramminäyttö.
  • Lyhytaikainen kapeakaistainen FFT spektrogramminäyttö 2.

    a

  • F0/A0 käyränäyttö ajan kera, alue 40-500 Hz, segmenttiviivoilla, tarkkuudet 0.1 Hz ja 0.1 dB, F0-käyrät voidaan siirtää tuloskuviin joissa on taustakuvat, laskee SPL arvot askeltavalla aikaikkunalla.
  • F0/A0 käyränäyttö ajan kera ja zoomauksella.
  • F0/A0 käyränäyttö ilman aikaa.

    a

  • Puheäänikenttä, alue 40-500 Hz ja (0 - -40) dB.

    a

  • Puheäänikenttä puolisävelasteikolla, alue g-G st ja (40-100) dB.

    a

  • Fonetogrammi puolisävelasteikolla, alue g-G st ja (40-100) dB.

    a

  • F0-histogramminäyttö alue 40-500Hz, taustakuvat.

    a

  • Jitter-käyränäyttö, alue 40-500 Hz, 2 jitter prosenttia, tarkkuus 0.1 Hz.
    Jitter1 100 * hajonta arvoista (f2-f1/f1), f1 ja f2 perusjaksot.
    Jitter2 100 * keskiarvo arvoista |(f2-f2/f1)|, f1 ja f2 perusjaksot.
  • Shimmer-käyränäyttö, alueet 40-500 Hz ja (0  - -40) dB.
    Shimmer keskiarvo arvoista |a2-a1|, a1 ja a2  perusjaksojen max. amplitudit dB:einä.
  • Jitter-jakauma analyysi.
  • Shimmer-jakauma analyysi.
  • a

  • S/N-signaalikohinasuhdeanalyysi, korkea dynamiikka, monta aikaikkunaa.
  • Harmooninen FFT-analyysinäyttö, 4.096, 2.048, 1.024 ja 512 kanavaa, korkea dynamiikka, monta aikaikkunaa, taustakuvat.

    a

  • Phonetogrammi-näyttö, monta aikaikkunaa.

    a

  • SPL analyysi, 5 erilaista SPL analyysiä. SPLdb = 10log10(SUM(x(n)2)/N), n=0...N-1.
  • SPL lyhytaikaisanalyysi signaali- ja verhokäyräkursorilla, 5 erilaista SPL analyysiä.
  • a

  • Erospektri.
  • Spektrin eromitat.
  • Spektrin vertailu.

    a

  • Äänen automaattinen segmentointi soinnillisiin ja soinnittomiin segmentteihin. Em. segmenteillä voidaan myös ohjata aiemmin kehitettyjä segmenttiohjattuja F0-analyysejä.

    a

  • Äänen soinnillisten segmenttien jako edelleen vokaalisegmentteihin auditiivisen spektrierokäyrän avulla, spektrierokäyrä syntyy summaamalla äänen matalasta päästä (F1-alue) laskettu spektrieromitta ja äänen korkeasta päästä (F2-alue) laskettu spektrieromitta, auditiivisille spektrieroille käytössä tarkka mitta-asteikko, erokäyrästä voidaan mitata äänteen staattisen osan pituus ms:eissa ja äänteen liukumaosan pituus ms:eissa. Erokäyrästä voi tutkia myös aiemmin mittaamattomia äänteen sisäisiä ilmiöitä, erokäyrän avulla äänen mielenkiintoisia osia voi tietysti myös kuunnella (since 1996).

  • Auditorinen muutosspektri (muutosvaihe ja vakiovaihe), joka tuo herkästi esille äänessä esiintyvät spektrimuutokset ja niitten ajalliset paikat ja samalla selvästi osoittaa, missä kohdin ääni on melko vakioista. Muutosten arvointiin on käytössä selkeä mitta-asteikko.

    a

  • Intelligent Speech Analyseria ohjaavan korkean tason komentokielen kehitystyö. Käytössä ensimmäiseksi Intelligent Speech Analyser™ (ISA) tietokantapohjaisissa LTAS-analyyseissä.

    a

    Perussignaalioperaatiot.

  • Signaalin näytteenottotaajuussarja I 44.100 (1/1), 22.050 (1/2), 14.700 (1/3), 11.025 (1/4). Sen taajuusalueet 22.050 (1/1), 14.700 (1/2), 11.025 (1/3), 5.512,5 (1/4), 2.756,25 (1/8), 1.378,125 (1/16), 689,0625 (1/32) Hz.
  • Signaalin näytteenottotaajuussarja II 192.000 (1/1), 96.000 (1/2), 64.000 (1/3), 48.000 (1/4). Sen taajuusalueet 96.000 (1/1), 48.000 (1/2), 32.000 (1/3), 24.000 (1/4), 12.000 (1/8), 6.000 (1/16), 3.000 (1/32) Hz.
  • Signaalin näytteenottotaajuussarja III 384.000 (1/1), 192.000 (1/2), 128.000 (1/3), 96.000 (1/4). Sen taajuusalueet 192.000 (1/1), 96.000 (1/2), 64.000 (1/3), 48.000 (1/4), 24.000 (1/8), 12.000 (1/16), 6.000 (1/32) Hz.
  • Signaalin näytteenottotaajuussarjassa IV käyttäjä itse kirjoittaa ruudulle haluamansa näytteenoton ylimmän taajuuden kuten vaikkapa 1.000 Hz ja sarja IV on siten 1.000 (1/1), 500 (1/2), 333,3 (1/3), 250 (1/4). Sen taajuusalueet 500 (1/1), 250 (1/2), 133,3 (1/3), 125 (1/4), 62,5 (1/8), 31,25 (1/16), 15,625 (1/32) Hz.

  • Signaalimuistia käytettävissä useita gigatavuja.
  • Monta signaalin sisäänottomenetelmää.
  • Hyvin monta signaalien kuuntelumenetelmää.
  • Hyvin monta signaalien kuuntelumenetelmää analyysinäyttöjen kanssa.
  • Hyvin monta signaalien kuuntelumenetelmää tuloskuvien kanssa.
  • Signaalien dymamiikka 96 dB.
  • Signaalien segmentointi ja nimeäminen.
  • Signaalien editointi.
  • Signaalien generointi.
  • Signaalien suodatus.
  • Signaalitiedostot ISA:n omassa tiedostomuodossa sekä wav-tiedostoina. Netistä saatavissa olevat 44.100 Hz:n näytteenottotaajudella äänitetyt signaalitiedostot toimivat ISA:ssa hyvin.
  • Signaalin kuuntelu signaalin suodatuksen kanssa, signaalin kuuntelu värinmuokkauksen kanssa, formanttien kuuntelu.
  • Fourier-analyysi ja synteesi perustaajuutta ja formantteja muuttamalla.
  • a

    Mittausmenetelmät.

  • Mittaustaulut ja tilastolliset tulokset.
  • Tuloskuvat. Esimerkiksi formanttikartat  Hz-asteikolla,  Bark-asteikollaERB-asteikolla, mel-asteikolla. Esimerkiksi f0-käyrät hz-asteikolla,  st-asteikolla,  Bark-asteikollaERB-asteikolla,  mel-asteikolla. Reaaliaikaiset tilastolliset tulokset.

    Hz:t muunnetaan Bark:eiksi kaavalla Hz->Bark=7sinh(f/650)=7ln(f/650+√(1+(f/650)2)) ja
    Bark:it muunnetaan Hz:eiksi kaavalla Bark->Hz=650sinh(x/7).

    Hz:t muunnetaan ERB:eiksi kaavalla Hz->ERB=21,3log10(1+f/228,7) ja
    ERB:it muunnetaan Hz:eiksi kaavalla ERB->Hz=228,7(10x/21,3-1).

    Hz:t muunnetaan mel:eiksi kaavalla Hz->mel=2595log10(1+f/700) ja
    mel:it muunnetaan Hz:eiksi kaavalla mel->Hz=700(10x/2595-1).

    Hz:t muunnetaan st:eiksi kaavalla x->st=57+12log2(f/440) ja
    st:t muunnetaan Hz:eiksi kaavalla st->Hz=440(2(x-57)/12).

    Edellä mainitut Bark-asteikon muunnoskaavat käytössäni jo vuodesta 1983 saakka.

  • Monitoroiva formanttikartta.
  • Mittaukset aika-asteikolla (ms),  Hertsi-asteikolla (Hz)Bark-asteikolla (Bark).
  • Mittaukset puolisävelasteikolla (st)  2, senttiasteikolla (cent).
  • Mittaukset Koenig-asteikolla (k),  mel-asteikolla (mel)  ja  ERB-asteikolla (ERB)  2  3  4.

    a

    Kursorimenetelmät.

  • Näyttökursorit ja mustat alueet analyysinäytöissä.
  • Globaali aikasynkronointi kaikkien analyysinäyttöjen välillä.
  • Globaali aikasynkronointi kaikkien analyysinäyttöjen ja tuloskuvien välillä.
  • Globaali taajuussynkronointi kaikkien analyysinäyttöjen välillä.
  • Globaali taajuussynkronointi kaikkien analyysinäyttöjen ja tuloskuvien välillä.
  • a

    Muut analyysimenetelmät.

  • Taustakuvat analyysinäytöissä.
  • Taustakuvat tulosnäytöissä.
  • Taustakuvia voidaan siirtää analyysinäyttöjen välillä.
  • Monta signaalipuskuria.
  • Globaali SPL-kalibrointi.
  • Segmenttiviivat analyysinäytöissä.
  • Segmenttiviivat tulosnäytöissä.

    a

    All Intelligent Speech Analyser™ (ISA) copyrights belong to Raimo Olavi Toivonen, MSc, who has 38 years 1985-2023 developed unique Intelligent Speech Analyser™ (ISA) software and unique speech, sound and signal analysis Intelligent Speech Analyser™ (ISA) methods.