Reaaliaikainen puheentunnistustyökalu kehittäjille
VoiceCode on paikallisesti toimiva puheentunnistus- ja transkriptiotyökalu, joka on suunniteltu erityisesti ohjelmistokehittäjien työnkulkuun. Se mahdollistaa ajatusten, dokumentaation ja muistiinpanojen tallentamisen puheella samalla kun kädet pysyvät vapaana koodaamiseen.
Kun aloin työskentelemään Claude Coden kanssa, huomasin nopeasti yhden keskeisen ongelman: dokumentointi jäi toistuvasti vähäiseksi. Kehitystyö eteni nopeasti, mutta ajatusprosessien ja päätösten kirjaaminen tekstiksi tuntui hitaalta ja katkaisi työn flow-tilan. Tiesin, että tekoälyn kanssa työskennellessä dokumentoinnin pitäisi olla helpompaa — ei vaikeampaa.
Ratkaisu oli yksinkertainen: entä jos voisin vain puhua? Puhuminen on luonnollisempaa ja nopeampaa kuin kirjoittaminen, eikä se vaadi käsien irrottamista näppäimistöltä kesken koodauksen. Tästä oivalluksesta syntyi VoiceCode — työkalu, joka antaa minun dokumentoida työni puhumalla samalla kun kädet pysyvät koodissa.
VoiceCode on suunniteltu ja toteutettu kokonaisuudessaan Claude Coden avulla. Tämän kuvauksenkin ensimmäinen versio nauhoitettiin VoiceCodella ja viimeisteltiin tekoälyn avulla lopulliseen julkaisumuotoonsa.
VoiceCode hyödyntää seuraavia teknologioita:
- Sounddevice — PortAudio-sidokset, jotka sieppaavat mikrofonisyötteen NumPy-taulukoina
- Silero VAD — PyTorch-pohjainen neuroverkkomalli, joka erottaa puheen hiljaisuudesta
- Torch — Silero VAD:n ajonaikainen riippuvuus
- Faster Whisper — CTranslate2-optimoitu Whisper-toteutus nopeaan ja tarkkaan puheentunnistukseen
- Typer — CLI-kehys argumenttien jäsentämiseen
- Rich — Tyylitelty terminaalitulostus: taulukot, värit ja reaaliaikainen transkriptionäkymä
- NumPy — Äänipuskurien hallinta
- Käynnistä VoiceCode terminaalissa
- Puhu vapaasti — työkalu tunnistaa puheen automaattisesti ja erottaa sen taustaäänistä
- Puhe muunnetaan tekstiksi reaaliaikaisesti ja näytetään terminaalissa
- Tallenna transkriptio ja hyödynnä sitä sellaisenaan tai syötä se tekoälylle jatkokäsittelyyn
VoiceCode toimii kokonaan paikallisesti, eikä lähetä ääntä tai tekstiä ulkoisille palvelimille.