Mati Staniszewski และ Piotr Dabkowski ซึ่งโตขึ้นในโปแลนด์ในช่วงต้นทศวรรษ 2000 ทนไม่ได้กับภาพยนตร์ที่มีการพากย์เสียงคุณภาพต่ำที่ต้องดูจนจบ การพากย์ภาพยนตร์ต่างประเทศเป็นภาษาโปแลนด์มีงบประมาณจำกัด ทำให้ภาพยนตร์ส่วนใหญ่มีนักพากย์เพียงคนเดียวพูดบทของตัวละครทุกตัวโดยแทบไม่มีความลึกซึ้ง ความละเอียดอ่อน หรืออารมณ์ใดๆ
ประสบการณ์ในวัยเด็กเหล่านั้นยังคงอยู่กับทั้งสองขณะที่พวกเขาสร้างอาชีพในอุตสาหกรรมเทคโนโลยี และท้ายที่สุดก็จุดประกายความคิดว่า จะเกิดอะไรขึ้นถ้าเราสามารถแก้ปัญหาการพากย์เสียงคุณภาพต่ำและอีกหลายๆ ปัญหาได้ โดยการสร้างเสียงสังเคราะห์ที่สมจริง เปี่ยมอารมณ์ และเข้าใจบริบท
ไอเดียนี้นำไปสู่การก่อตั้ง ElevenLabs ในปี 2022 ซึ่งใช้ประโยชน์จากความก้าวหน้าใน AI และการเรียนรู้เชิงลึกจนกลายเป็นบริษัทแรกที่สร้างเสียงสังเคราะห์ที่พูดได้เหมือนมนุษย์ (รวมถึงเสียงหัวเราะ) ความก้าวหน้านี้ทำให้สตาร์ทอัพแห่งนี้ก้าวขึ้นสู่แนวหน้าของเทคโนโลยีเสียง AI ปัจจุบัน ElevenLabs มีผลิตภัณฑ์ที่หลากหลาย เช่น ระบบ Text to Speech สำหรับเนื้อหาเสียงและวิดีโอ เครื่องมือออกแบบเสียงสำหรับการพัฒนาตัวละคร สตูดิโอแปลภาษาและพากย์เสียง และชุดเครื่องมือสำหรับแชทบอท AI ที่สามารถโต้ตอบกับลูกค้าได้
การสร้างรายได้จากผลิตภัณฑ์เหล่านั้นในขณะที่บริษัทเติบโตขึ้นจำเป็นต้องมีพาร์ทเนอร์ด้านการชำระเงินที่ก้าวหน้าพอๆ กัน ElevenLabs ซึ่งมีฐานอยู่ที่ลอนดอนและนิวยอร์กหันมาใช้ Stripe ในปี 2023 เพื่อเปิดตัวการสมัครใช้งานแบบอัตราคงที่สำหรับเครื่องมือ AI ด้านเสียงของตน ตั้งแต่นั้นมา ElevenLabs ก็พึ่งพาผลิตภัณฑ์มากมายของ Stripe ในการขยายบริการในระดับองค์กรและสนับสนุนโมเดลธุรกิจที่พัฒนาอย่างรวดเร็ว เช่น การสร้างมาร์เก็ตเพลสที่นักพากย์สามารถให้สิทธิ์เสียงของตนเพื่อใช้งานเชิงพาณิชย์
"เราเริ่มต้นเมื่อประมาณสองปีครึ่งที่ผ่านมา และตอนนี้เราเป็นยูนิคอร์นแล้ว" Luke Harries หัวหน้าฝ่ายเติบโตของ ElevenLabs กล่าว "เรามีผู้สมัครใช้งานแบบบริการตนเองหลายแสนราย และลูกค้าองค์กรอย่าง Perplexity, Time magazine และ Bertelsmann ใช้แพลตฟอร์มของเรา การชำระเงินทั้งหมดนี้ถูกจัดการโดยวิศวกรคนแรกของเราที่เป็นคนตั้งค่า Stripe"
รองรับการสมัครใช้งาน การเบิกจ่าย และเวิร์กโฟลว์อัตโนมัติด้วยวิศวกรด้านการเรียกเก็บเงินเพียงคนเดียว
ElevenLabs เริ่มต้นด้วยเสียง AI ที่เหมือนมนุษย์ 11 เสียง ซึ่งแตกต่างจากเสียง AI แบบหุ่นยนต์ในอดีต เทคโนโลยีของ ElevenLabs จำลองความแตกต่างที่ละเอียดอ่อนของอายุ สำเนียง เพศ น้ำเสียง และปัจจัยอื่นๆ ที่ทำให้แต่ละเสียงของมนุษย์มีเอกลักษณ์ ความสมจริงนี้รวมกับความสามารถของแพลตฟอร์มในการตีความอารมณ์จากเบาะแสในข้อความ ทำให้เอนจิน Text to Speech ของ ElevenLabs ได้รับความนิยมในหมู่ครีเอเตอร์ที่ต้องการพากย์บทวิดีโอ พอดคาสต์ รายงานข่าว หนังสือเสียง และเนื้อหาเสียงหรือวิดีโอประเภทอื่นๆ
ElevenLabs เลือกใช้ Stripe Billing เพื่อให้เริ่มต้นใช้งานได้ง่าย ทดลองและปรับเปลี่ยนได้อย่างรวดเร็ว และขยายบริการสมัครใช้งานสำหรับเครื่องมือแปลงเสียงเป็นข้อความสำหรับครีเอเตอร์และผู้เผยแพร่ได้อย่างราบรื่น การทำงานกับ API และ SDK ของ Stripe ที่ง่ายดายทำให้ทีมงานมั่นใจว่าสามารถสร้างระดับราคาได้หลายระดับโดยแทบไม่ต้องใช้เวลาทางวิศวกรรมใดๆ ความยืดหยุ่นของ Billing ยังช่วยให้บริษัทสามารถปรับขยายบริการแบบสมัครใช้งานเพื่อรองรับลูกค้าขนาดใหญ่ขึ้นเมื่อเปิดตัวผลิตภัณฑ์ระดับองค์กร เช่น สตูดิโอผลิตงานเสียงอย่างเต็มรูปแบบและบริการพากย์เสียง
การเข้าถึงทั่วโลกของ Stripe ทำให้ ElevenLabs สามารถรับผู้สมัครใช้บริการจากทั่วทุกมุมโลกได้ทันที และบริษัทได้ใช้ชุดเครื่องมือด้านการชำระเงินที่เพิ่มประสิทธิภาพของ Stripe เพื่อออกแบบหน้าสมัครใช้บริการที่เรียบง่ายและมีประสิทธิภาพสำหรับผู้ใช้ทั่วโลก ยกตัวอย่างเช่น บริษัทได้ฝังแบบฟอร์ม Checkout สำเร็จรูปไว้ในหน้าเว็บของตน ซึ่งทำให้สามารถเสนอวิธีการชำระเงินแบบดิจิทัลและวิธีการชำระเงินในท้องถิ่น เช่น Apple Pay, Google Pay และ Revolut Pay ได้อย่างง่ายดายโดยไม่ต้องเขียนโค้ดเพิ่มเติม นอกจากนี้ ElevenLabs ยังเพิ่ม Link ซึ่งเป็นโซลูชันการชำระเงินแบบเร่งด่วนของ Stripe เพื่อให้ลูกค้าสามารถกรอกข้อมูลการชำระเงินที่บันทึกไว้ล่วงหน้าได้โดยอัตโนมัติทุกที่ที่อยู่ในเครือข่ายของ Link ผู้ใช้ชุดเครื่องมือด้านการชำระเงินที่เพิ่มประสิทธิภาพได้รับประโยชน์จากอัตราการเปลี่ยนเป็นลูกค้าแบบชำระเงินที่เพิ่มขึ้น และประสบการณ์การชำระเงินที่ง่ายและรวดเร็วขึ้นผ่าน Link ซึ่งตอนนี้คิดเป็น 20% ของการชำระเงินทั้งหมดของ ElevenLabs
ในฐานะบริษัท AI ElevenLabs เล็งเห็นถึงศักยภาพของ AI จาก Stripe ในการสร้างผลกระทบสำคัญต่อเส้นทางของผู้สมัครใช้บริการ แทนที่จะพึ่งพากฎเกณฑ์ที่ตายตัว โมเดล AI ที่ฝังอยู่ในชุดเครื่องมือด้านการชำระเงินที่เพิ่มประสิทธิภาพสามารถกำหนดวิธีการชำระเงินที่จะแสดงและลำดับการแสดงผลได้แบบไดนามิกสำหรับการชำระเงินแต่ละครั้ง ช่วยให้ ElevenLabs มอบประสบการณ์การใช้งานที่เหมาะกับผู้ใช้มากยิ่งขึ้น
ผลิตภัณฑ์ของ Stripe ยังช่วยให้ ElevenLabs จัดการงานด้านการเรียกเก็บเงินและการชำระเงินได้อย่างมีประสิทธิภาพ เช่น การจัดการการเบิกจ่ายและการทำให้กระบวนการเริ่มต้นใช้งานเป็นไปอย่างง่ายดาย ที่จริงแล้ว ElevenLabs ผสานการทำงานกับ Stripe และจัดการเวิร์กโฟลว์การเรียกเก็บเงินและการชำระเงินต่างๆ ได้ด้วยวิศวกรเพียงคนเดียว "ถ้าเราต้องสร้างโครงสร้างพื้นฐานสำหรับการสมัครใช้บริการทั้งหมดภายในบริษัทเพื่อรองรับทุกภูมิภาค ผมคาดว่าเราจะต้องมีทีมวิศวกรเต็มรูปแบบที่ทำงานเฉพาะด้านการชำระเงินเท่านั้น" Harries กล่าว
เมื่อ ElevenLabs พัฒนาเทคโนโลยีการโคลนนิ่งเสียงที่ซับซ้อนขึ้น บริษัทก็มองเห็นโอกาสในการสนับสนุนนักพากย์มืออาชีพและเพิ่มเลเยอร์ใหม่ให้กับโมเดลธุรกิจของตน ElevenLabs ใช้ Stripe Connect ในการสร้างมาร์เก็ตเพลสที่นักพากย์สามารถโคลนเสียงของตนเพื่อใช้ในโปรเจกต์เชิงพาณิชย์ กำหนดเงื่อนไข และรับการเบิกจ่ายทุกครั้งที่ผู้ใช้ ElevenLabs เลือกเสียงของตนสำหรับโปรเจกต์ Connect มอบฟังก์ชันพร้อมใช้งานที่รองรับการเริ่มต้นใช้งานของนักพากย์ รวมถึงการเบิกจ่ายไปต่างประเทศและการรับมือกับอุปสรรคด้านกฎระเบียบ เช่น ข้อกำหนดรู้จักลูกค้าของคุณ (KYC) ตัวอย่างเช่น การปฏิบัติตามกฎ KYC อาจเป็นอุปสรรคใหญ่สำหรับแพลตฟอร์มในกระบวนการเริ่มต้นใช้งานได้ แต่ฟีเจอร์ของ Stripe ก็ช่วยลดเวลาและทรัพยากรที่ใช้ในการพัฒนาได้อีกแล้ว ซึ่ง ElevenLabs สามารถนำสิ่งเหล่านี้ไปทุ่มเทให้กับโปรเจกต์ AI เสียงที่เป็นงานหลักได้มากขึ้น
ElevenLabs เห็นว่ามีหลายบริษัทที่ใช้โมเดล Text to Speech และ Speech to Text ของตนเพื่อสร้างเอเจนต์ AI ซึ่งบริษัทเหล่านั้นมักใช้เวลาหลายเดือนกว่าจะพร้อมผลิตจริง และต้องสร้างโครงสร้างพื้นฐานซ้ำๆ ดังนั้น ElevenLabs จึงเปิดตัวแพลตฟอร์มของตัวเองเพื่อสร้างเสียง AI เชิงสนทนาให้ลูกค้าเข้าสู่การผลิตได้เร็วขึ้นและสามารถมุ่งเน้นไปที่การพัฒนาตรรกะทางธุรกิจแบบใช้เอเจนต์ แทนที่จะต้องกังวลเกี่ยวกับโครงสร้างพื้นฐาน ชุดเครื่องมือเอเจนต์ของ Stripe ทำให้แพลตฟอร์มเอเจนต์ของ ElevenLabs สามารถทำให้เอเจนต์ AI ดำเนินงานด้านบริการลูกค้าหรือเวิร์กโฟลว์การขายได้อย่างสมบูรณ์ ยกตัวอย่างเช่น เอเจนต์ AI ของธุรกิจสามารถเข้าถึงบัญชี Stripe ของตัวเองเพื่อออกเงินคืนหรือทำธุรกรรมโดยการส่งลิงก์ชำระเงินออกไปได้ "การเปลี่ยนแปลงที่ใหญ่ที่สุดของเอเจนต์ AI เชิงสนทนาคือการเปลี่ยนจากการตอบคำถามเพียงอย่างเดียว ไปสู่การดำเนินการบางอย่างด้วยตัวเองอย่างอิสระ" Harries กล่าว
พาร์ทเนอร์เพื่อรักษาตำแหน่งผู้นำของ ElevenLabs
จาก 11 เสียงในตอนแรก ปัจจุบัน ElevenLabs มีเสียงกว่า 5,000 เสียงบนแพลตฟอร์ม โดยได้รับแรงขับจากมาร์เก็ตเพลสที่ล้ำหน้าของตน แพลตฟอร์มนี้ได้จ่ายเงินออกไปมากกว่า 4 ล้านดอลลาร์ให้นักพากย์ โดยบางคนมีรายได้มากกว่า 10,000 ดอลลาร์ต่อเดือน
ปัจจุบันผู้ใช้ได้สร้างเอเจนต์ AI มากกว่า 550,000 ตัวบนแพลตฟอร์มแล้ว นี่เป็นเพียงจุดเริ่มต้นเท่านั้น หากพิจารณากรณีการใช้งานที่เป็นไปได้ด้วยบอทสนทนาที่มีความสามารถในการตอบโต้เชิงสนทนาอย่างแท้จริงและเวิร์กโฟลว์แบบใช้เอเจนต์ ElevenLabs ยังคงเพิ่มภาษาต่างๆ ในฟังก์ชัน Text to Speech และการพากย์เสียง ซึ่งปัจจุบันรองรับถึง 33 ภาษา ตั้งแต่ภาษาอังกฤษ ฝรั่งเศส และสเปน ไปจนถึงภาษาที่เพิ่งเพิ่มเข้ามาใหม่อย่างโครเอเชียและทมิฬ
Harries เปรียบเทียบการแข่งขันในวงการ AI ด้านเสียงกับการแข่งขันฟอร์มูล่าวันที่ทุกบริษัทต่างมองหาการพัฒนานวัตกรรมครั้งถัดไปหรือผลิตภัณฑ์ที่เป็นจุดเปลี่ยนเพื่อให้ตนเองก้าวขึ้นสู่แนวหน้า ด้วยเหตุนี้เขาไม่คาดหวังว่าอัตราการเติบโตและนวัตกรรมของ ElevenLabs จะชะลอลงในเร็วๆ นี้ และมองว่า Stripe เป็นพาร์ทเนอร์ที่สำคัญในการขับเคลื่อนนวัตกรรมนี้ให้ต่อเนื่อง
"ผมรู้สึกตื่นเต้นที่จะได้ขยายปริมาณการชำระเงินผ่าน Stripe ให้มากยิ่งขึ้น ทำการจ่ายเงินอีกหลายล้านครั้งให้กับนักพากย์เสียงบนแพลตฟอร์มของเรา และขยายไปสู่หลายประเทศและช่องทางการชำระเงินที่มากขึ้น" Harries กล่าว
We started about two and a half years ago, and we are now a unicorn. We have hundreds of thousands of self-service subscribers and enterprises like Perplexity, Time magazine, and Bertelsmann using our platform. All these payments have been handled by our first engineer setting up Stripe.
Supporting subscriptions, payouts, and agentic workflows with one billing engineer
ElevenLabs started with 11 human-like AI voices. Unlike previous robotic AI voices, ElevenLabs technology replicates the nuances of age, accent, gender, intonation, and other factors that make each human voice unique. That realism, combined with the platform’s ability to gauge emotion from textual clues, made ElevenLabs’ Text to Speech engine a hit among creators looking to voice video scripts, podcasts, news reports, audiobooks, and almost any other type of audio or video content.
ElevenLabs chose Stripe Billing to get started easily, iterate rapidly, and seamlessly scale its subscription service for voice-to-text tools for content creators and publishers. The ease of working with the Stripe API and SDK made the team confident they could quickly build multiple pricing tiers with virtually no engineering time dedicated to the task. Billing’s flexibility also meant the company could scale its subscription offerings to accommodate larger customers as it rolled out enterprise-scale products such as a full-fledged audio production studio and dubbing services.
With Stripe’s global reach, ElevenLabs was able to instantly accept subscribers from all over the world, and the company used Stripe’s Optimized Checkout Suite to design a simple, effective subscription sign-up page for the global audience. For example, the company embedded the prebuilt Checkout form on its page, which made it easy to offer digital wallets and local payment methods such as Apple Pay, Google Pay, and Revolut Pay with no additional coding required. ElevenLabs also added Stripe’s accelerated checkout solution, Link, to enable customers to autofill their saved payment information anywhere across the Link network. Optimized Checkout Suite users benefit from an uplift in conversion rates, and Link’s easy, faster checkout experience now accounts for 20% of ElevenLabs’ payments. By running Stripe on AWS, ElevenLabs is supported by built-in AI tools to localize, personalize, and optimize the buying experience for its customers.
As an AI company, ElevenLabs saw the potential for Stripe’s AI to make a significant impact on the subscriber journey. Instead of relying on rigid rules, the AI models built into the Optimized Checkout Suite dynamically determine which payment methods to display in what order for every checkout, helping ElevenLabs provide a more personalized user experience.
Stripe products also enabled ElevenLabs to efficiently manage a range of billing and payment tasks, such as managing payouts and simplifying the onboarding process. In fact, ElevenLabs accomplished its Stripe integrations and is managing its various billing and payment workflows with just one engineer.
If we had to do all the subscription infrastructure in-house to handle all our different geographic regions, I’d expect we’d need a full engineering team dedicated purely to payments.
When ElevenLabs developed sophisticated voice cloning technology, the company saw an opportunity to support the professional voice actor community and add another new layer to its business model. Using Stripe Connect, ElevenLabs created a marketplace where actors can clone their voices for commercial projects, set terms, and receive payouts any time an ElevenLabs user selects their voice for a project. Connect offered ready-to-use capabilities to handle voice actor onboarding, including supporting international payouts and managing regulatory hurdles such as Know Your Customer (KYC) requirements. For instance, compliance with KYC rules can pose a considerable hurdle for platforms throughout the onboarding process. Stripe’s features again saved development time and resources that ElevenLabs could dedicate to its core audio AI projects.
ElevenLabs saw many companies using their Text to Speech and Speech to Text models to build AI agents. The companies often took months to get in production and were rebuilding the same underlying stack. So ElevenLabs launched their own platform to create a Conversational AI voice for customers to get to production quicker and focus on building the agent business logic rather than infrastructure. With the Stripe agent toolkit, ElevenLabs’ agent platform could enable agents to complete customer service or sales workflows. For example, a business’s AI agent could reach into its Stripe account to issue a refund or complete a transaction by sending out a checkout link. “The biggest shift in conversational AI agents is going to be from just pure question answering, to now using their own autonomy to execute certain actions,” said Harries.
A partner to keep ElevenLabs ahead of the competition
Building on those first 11 voices, ElevenLabs now has more than 5,000 voices available on its platform—driven in part by its advanced marketplace. The platform has paid out more than $4 million to voice actors, with some top earners making more than $10,000 a month.
Already, users have made more than 550,000 AI agents on the platform, which is just the start, considering the number of use cases enabled by truly conversational bots and agentic workflows. ElevenLabs also continues to add more languages to its Text to Speech and dubbing capabilities, which now supports 33 languages ranging from English, French, and Spanish to newer additions such as Croatian and Tamil.
Harries likens the competition in the AI audio space to Formula 1, where every company is looking for the next technology iteration or breakthrough product to power it to the front of the field. As a result, he doesn’t expect the pace of innovation to slow anytime soon for ElevenLabs. And he sees Stripe as a key partner for continuing that innovation.
I’m excited to keep scaling up much more volume of payments through Stripe, [making] many more millions of payments to voice actors on our platform, and expanding into far more countries and payment options.