Skip to content

miikkis-gh/voicecode

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

VoiceCode

Reaaliaikainen puheentunnistustyökalu kehittäjille

VoiceCode on paikallisesti toimiva puheentunnistus- ja transkriptiotyökalu, joka on suunniteltu erityisesti ohjelmistokehittäjien työnkulkuun. Se mahdollistaa ajatusten, dokumentaation ja muistiinpanojen tallentamisen puheella samalla kun kädet pysyvät vapaana koodaamiseen.

Henkilökohtainen motivaatio

Kun aloin työskentelemään Claude Coden kanssa, huomasin nopeasti yhden keskeisen ongelman: dokumentointi jäi toistuvasti vähäiseksi. Kehitystyö eteni nopeasti, mutta ajatusprosessien ja päätösten kirjaaminen tekstiksi tuntui hitaalta ja katkaisi työn flow-tilan. Tiesin, että tekoälyn kanssa työskennellessä dokumentoinnin pitäisi olla helpompaa — ei vaikeampaa.

Ratkaisu oli yksinkertainen: entä jos voisin vain puhua? Puhuminen on luonnollisempaa ja nopeampaa kuin kirjoittaminen, eikä se vaadi käsien irrottamista näppäimistöltä kesken koodauksen. Tästä oivalluksesta syntyi VoiceCode — työkalu, joka antaa minun dokumentoida työni puhumalla samalla kun kädet pysyvät koodissa.

Tausta

VoiceCode on suunniteltu ja toteutettu kokonaisuudessaan Claude Coden avulla. Tämän kuvauksenkin ensimmäinen versio nauhoitettiin VoiceCodella ja viimeisteltiin tekoälyn avulla lopulliseen julkaisumuotoonsa.

Tekninen toteutus

VoiceCode hyödyntää seuraavia teknologioita:

  • Sounddevice — PortAudio-sidokset, jotka sieppaavat mikrofonisyötteen NumPy-taulukoina
  • Silero VAD — PyTorch-pohjainen neuroverkkomalli, joka erottaa puheen hiljaisuudesta
  • Torch — Silero VAD:n ajonaikainen riippuvuus
  • Faster Whisper — CTranslate2-optimoitu Whisper-toteutus nopeaan ja tarkkaan puheentunnistukseen
  • Typer — CLI-kehys argumenttien jäsentämiseen
  • Rich — Tyylitelty terminaalitulostus: taulukot, värit ja reaaliaikainen transkriptionäkymä
  • NumPy — Äänipuskurien hallinta

Työnkulku

  1. Käynnistä VoiceCode terminaalissa
  2. Puhu vapaasti — työkalu tunnistaa puheen automaattisesti ja erottaa sen taustaäänistä
  3. Puhe muunnetaan tekstiksi reaaliaikaisesti ja näytetään terminaalissa
  4. Tallenna transkriptio ja hyödynnä sitä sellaisenaan tai syötä se tekoälylle jatkokäsittelyyn

VoiceCode toimii kokonaan paikallisesti, eikä lähetä ääntä tai tekstiä ulkoisille palvelimille.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages