Dukungan dan layanan pelanggan adalah salah satu sektor terpanas dalam AI suara saat ini. Namun membangun produk yang terdengar manusiawi dan merespons tanpa penundaan ternyata jauh lebih sulit di beberapa pasar dibandingkan pasar lainnya — dan sebagian besar pemain utama tidak dibangun dengan mempertimbangkan Afrika dan Timur Tengah.
AethexAIsebuah startup yang didirikan tahun lalu untuk menutup kesenjangan tersebut, telah mengumpulkan $3 juta dalam pendanaan awal yang dipimpin oleh 4DX Ventures, dengan partisipasi dari Enza Capital, Dorm Room Fund, Mojo Ventures, dan Stanford GSB 26 Fund. Investor individu termasuk staf pengajar Stanford, eksekutif telekomunikasi, dan peneliti AI dari Anthropic.
Daripada menggunakan alat orkestrasi yang sudah ada seperti Lambang Dan LiveKitperusahaan ini membangun model kecil dan lapisan orkestrasinya sendiri dari awal untuk menangani dialek lokal bahasa Inggris, Prancis, dan Arab yang digunakan di seluruh pasar sasarannya — sebuah keputusan yang, seperti yang akan kita bahas nanti, didorong oleh tuntutan khusus dalam beroperasi di wilayah tersebut.
Perusahaan ini juga meluncurkan platformnya bagi perusahaan untuk mencoba teknologinya dan mendaftar ke layanannya, bersama dengan API dan SDK bagi pengembang untuk bereksperimen dengan modelnya.
Startup ini didirikan oleh Mariama Diallo dan Ayooluwa Odemuyiwa. CEO Diallo bekerja di Goldman Sachs dan kemudian bergabung dengan ModelML yang didukung YC sebagai karyawan produk dan pertumbuhan. CTO Odemuyiwa lulus dari Caltech, bekerja di Meta, dan mendaftar di Stanford Business School sebelum ikut mendirikan perusahaan. Pasangan ini ingin membangun sesuatu untuk pasar negara berkembang dan mulai mencari peluang.
Bisnis di seluruh dunia berlomba untuk mengadopsi alat AI untuk mengotomatisasi sebagian operasi mereka. Tapi itu tidak selalu berhasil. Di Mesir, sebuah pusat panggilan mengotomatiskan sebagian besar panggilannya, namun membatalkan sistem tersebut karena hasil yang buruk, demikian temuan para pendiri. Beberapa pusat dukungan di Afrika mengatakan kepada mereka bahwa mencari dan mempekerjakan insinyur untuk mengotomatisasi panggilan dengan biaya yang tepat adalah hal yang sulit.
“Latensi dan jitter yang kami lihat pada panggilan otomatis di wilayah ini sangat keterlaluan. Jika kami menjadi orkestrator, kami mungkin harus menggunakan model besar yang dihosting di luar wilayah tersebut, sehingga menghasilkan latensi yang lebih tinggi. Kami menyadari bahwa agar ini berfungsi, kami harus menggunakan model yang sangat kecil dan memotong latensi di setiap langkah,” kata Odemuyiwa kepada TechCrunch tentang keputusan untuk membangun model dan lapisan orkestrasi milik perusahaan.
Laboratorium AI yang menerapkan model terbarunya biasanya menghabiskan jutaan dolar untuk melatih dan memperoleh data. AethexAI menemukan solusi untuk keduanya. Daripada mengejar model terbesar, mereka memutuskan bahwa model kecil sudah cukup untuk mengatasi masalah latensi sambil menjaga akurasi dan mengembangkan seri Kora sendiri, dengan parameter berkisar antara 300 juta hingga 1,7 miliar. Itu hanya sebagian kecil dari ukuran LLM, dan itulah intinya.
Untuk melatih model ini, startup tersebut menggunakan rekaman anonim dari mitra pusat panggilan. Mereka juga mengirimkan hard drive ke stasiun radio di seluruh Afrika untuk mengumpulkan lebih banyak data audio. Untuk menekan biaya, mereka membangun jaringan kontributor mahasiswa untuk membuat anotasi data dan mengucapkan nama lokal. Hasilnya, kata startup tersebut, kini menangani lebih dari 17.000 panggilan per hari.
Di sisi bisnis, perusahaan berupaya memandu klien yang baru mengenal AI melalui proses tersebut, menawarkan demo dan lokakarya di lokasi untuk membantu mereka mengidentifikasi kasus penggunaan terbaik untuk otomatisasi.
“Kami selalu memberi tahu pelanggan bahwa kami tidak bisa menjadi segalanya bagi semua orang saat ini. Kami masih kecil. Saat kami mulai berbicara dengan sebuah perusahaan, kami meminta mereka untuk memilih satu kasus penggunaan yang paling penting bagi mereka untuk memulai. [with]kata Diallo.
Startup ini terbuka untuk bekerja di semua industri, namun saat ini, sebagian besar kasus penggunaannya melibatkan panggilan untuk penagihan utang, aktivasi pelanggan, atau KYC — verifikasi Kenali Pelanggan Anda, proses pemeriksaan identitas standar yang digunakan oleh bank dan telekomunikasi. Perusahaan ini merekrut insinyur yang ditugaskan di masa depan berdasarkan kontrak untuk melayani pasar lokal dan membangun kemitraan saluran dengan penyedia telekomunikasi untuk menangani telepon untuk panggilan suara AI. Solusi plug-and-play, katanya, tidak akan berfungsi di sini.
Walter Baddoo, salah satu pendiri dan mitra pengelola 4DX Ventures, berpendapat bahwa pasar Afrika dan Timur Tengah pada dasarnya berbeda dari pasar yang ingin dilayani oleh sebagian besar perusahaan voice AI.
“Perusahaan-perusahaan di Afrika dan Timur Tengah memproses sekitar tiga kali lipat volume panggilan dibandingkan perusahaan-perusahaan di Barat, karena suara masih menjadi saluran dominan untuk interaksi pelanggan,” katanya. “Sistem yang sudah ada dibangun untuk pasar Barat yang ditandai dengan infrastruktur GPU kelas atas, lingkungan bicara bahasa Inggris dan Eropa standar, dan alur kerja perusahaan yang umum di AS dan Eropa. Hal ini menciptakan kesenjangan nyata ketika perusahaan membutuhkan sistem yang menangani dialek, alih kode, dan pola bicara informal, dan yang sesuai dengan infrastruktur telepon yang ada dan harga aktualnya.”
Dengan kata lain, meskipun perusahaan seperti ElevenLabs, Deepgram, Sierra, dan Cognigy berekspansi secara global dengan pesat, pasar tempat mereka dibangun dan pasar yang mereka masuki tidak selalu sama. Perusahaan rintisan seperti AethexAI yakin bahwa kesenjangan tersebut – model-model yang berspesialisasi dalam dialek lokal, kemitraan di lapangan, infrastruktur yang dibangun untuk wilayah ini – mewakili peluang pasar yang tidak dapat ditutup oleh para raksasa tersebut.
Saat Anda membeli melalui tautan di artikel kami, kita mungkin mendapat komisi kecil. Hal ini tidak mempengaruhi independensi editorial kami.

