GoogleWithRVC adalah aplikasi pengubah suara berbasis web (Web-UI) yang menggabungkan kecanggihan Google Text-to-Speech (Google Cloud & Gemini API) dengan teknologi Retrieval-based Voice Conversion (RVC) lokal. Aplikasi ini dirancang khusus untuk mempermudah kreator konten, streamer, dan developer dalam menghasilkan vokal karakter berkualitas tinggi secara instan lengkap dengan parameter audio DSP (Digital Signal Processing) profesional.
- Multi-Engine TTS:
- Gemini 3.1 Flash (TTS API): Suara narasi natural dengan ekspresi berkualitas tinggi.
- Edge-TTS: Alternatif gratis, cepat, dan handal (tanpa API key).
- Google Cloud TTS (Wavenet): Kualitas vokal premium dari Google Cloud.
- Local RVC Inference:
- Melakukan konversi suara dasar hasil TTS menjadi suara karakter pilihan secara lokal menggunakan model RVC (
.pthdan.index).
- Melakukan konversi suara dasar hasil TTS menjadi suara karakter pilihan secara lokal menggunakan model RVC (
- Advanced DSP Tuning Rack:
- Pitch & Formant Shifter: Transpose nada vokal serta atur karakter ketebalan/warna vokal (Timbre).
- Equalizer (Bass, Mid, Treble): Kontrol kehangatan, kejelasan vokal, dan clarity nada tinggi.
- Studio Reverb: Tambahkan kedalaman gema ruangan (Wet level & Room size).
- Noise Gate: Hapus desisan/noise halus di latar belakang secara dinamis.
- Real-Time Visualizer Monitor:
- Monitor gelombang audio neon siber interaktif menggunakan Web Audio API.
- Model Manager:
- Unggah checkpoint model RVC (
.pth) dan file indeks (.index) secara langsung melalui Web UI.
- Unggah checkpoint model RVC (
- Smart Settings Persistence:
- Semua pengaturan panel instrumen dan pilihan model otomatis tersimpan di
localStorageagar tidak hilang ketika halaman di-refresh.
- Semua pengaturan panel instrumen dan pilihan model otomatis tersimpan di
- Python: Versi 3.10 atau 3.11 (Sangat direkomendasikan karena RVC & Fairseq membutuhkan versi ini).
- Node.js & Package Manager: Node.js v18+ (Menggunakan
npmataubununtuk kecepatan maksimal). - GPU Acceleration (Opsional tapi Direkomendasikan): Kartu grafis Nvidia dengan driver CUDA terinstal untuk konversi vokal RVC instan di GPU.
- Masuk ke folder backend:
cd backend - Buat Virtual Environment:
python -m venv venv
- Aktifkan Virtual Environment:
- Windows (PowerShell):
.\venv\Scripts\Activate.ps1
- Linux/macOS:
source venv/bin/activate
- Windows (PowerShell):
- Instal PyTorch dengan dukungan CUDA (jika memiliki GPU Nvidia):
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118
- Instal dependensi lainnya dari
requirements.txt:pip install -r requirements.txt
- Salin berkas konfigurasi env:
- Ubah nama berkas
.env.example(jika ada) atau buat file.envbaru di dalam folder/backend/dengan isi:# Google Gemini API Key (Dapatkan gratis di Google AI Studio) GEMINI_API_KEY="API_KEY_GEMINI_ANDA" # Google Cloud Service Account (Hanya jika menggunakan Wavenet TTS) # GOOGLE_APPLICATION_CREDENTIALS="C:\\path\\to\\your\\google-cloud-key.json"
- Ubah nama berkas
- Jalankan server backend:
Server backend akan aktif secara default di
python main.py
http://localhost:8000.
- Buka terminal baru dan masuk ke folder frontend:
cd frontend - Instal dependensi node (menggunakan
npmataubun):# Menggunakan Bun (Sangat Direkomendasikan) bun install # Atau menggunakan NPM npm install
- Jalankan server frontend dalam mode development:
# Menggunakan Bun bun run dev # Atau menggunakan NPM npm run dev
- Buka tautan lokal yang tertera pada terminal (biasanya
http://localhost:5173) di browser Anda.
Model RVC disimpan di dalam direktori backend/assets/models/. Setiap model harus ditempatkan di subfolder yang dinamai sesuai dengan nama karakter/model tersebut.
Struktur folder model:
backend/assets/models/
├── Furina/
│ ├── Furina.pth
│ └── Furina.index (Opsional)
├── Kobo_Kanaeru/
│ ├── Kobo_Kanaeru.pth
│ └── Kobo_Kanaeru.index (Opsional)
💡 Tips: Anda dapat langsung menyeret dan mengunggah berkas
.pthdan.indexmelalui tab Model Manager pada antarmuka web, dan aplikasi akan membuat struktur folder ini secara otomatis.
- Error
'tuple' object has no attribute 'dtype'saat Konversi:- Aplikasi ini sudah dilengkapi monkey-patch otomatis untuk pustaka
rvc_pythonyang mengganti pemanggilan parser audio bawaan (pyav v17+ yang tidak kompatibel) menggunakan parser berbasislibrosa. Pastikanlibrosatelah terinstal dengan baik di dalam virtual environment Anda.
- Aplikasi ini sudah dilengkapi monkey-patch otomatis untuk pustaka
- UnpicklingError pada PyTorch 2.6+:
- PyTorch versi terbaru mengaktifkan
weights_only=Truesebagai default saat memuat model. Aplikasi ini secara otomatis mem-patchtorch.loadsaat inisialisasi server untuk menggunakanweights_only=Falseagar model HuBERT/fairseq dapat dimuat secara lokal dengan aman.
- PyTorch versi terbaru mengaktifkan
- Masalah Kompatibilitas Python 3.11/3.12 (OmegaConf/Fairseq):
- Fairseq bawaan memiliki bug kompatibilitas dengan dataclasses Python 3.11+. Server FastAPI kami secara otomatis mem-patch modul
dataclassesbawaan Python saat startup agar proses inisialisasi berjalan lancar tanpa errormutable default.
- Fairseq bawaan memiliki bug kompatibilitas dengan dataclasses Python 3.11+. Server FastAPI kami secara otomatis mem-patch modul
Proyek ini dirilis di bawah lisensi MIT License. Anda bebas menggunakan, memodifikasi, dan mendistribusikan proyek ini untuk kebutuhan personal maupun komersial.