صدای مشترک

  • توضیحات :

مجموعه داده های صوتی مشترک موزیلا

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D توضیحات
FeaturesDict
لهجه متن رشته لهجه گوینده، به https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts مراجعه کنید
سن متن رشته سطل سنی گوینده (به عنوان مثال نوجوانان یا دهه چهل)، به https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts مراجعه کنید.
client_id متن رشته UUID هش شده یک کاربر مشخص
رای منفی اسکالر int32 تعداد افرادی که گفتند صدا با متن مطابقت ندارد
جنسیت ClassLabel int64 جنسیت گوینده
بخش متن رشته اگر جمله متعلق به یک بخش مجموعه داده سفارشی باشد، در اینجا فهرست می شود
جمله متن رشته رونویسی فرضی صدا
رای موافق اسکالر int32 تعداد افرادی که گفتند صدا با متن مطابقت دارد
صدا صوتی (هیچ،) int64
common_voice/en (پیکربندی پیش فرض)
  • توضیحات پیکربندی : کد زبان: en

  • حجم دانلود : 56.45 GiB

  • اندازه مجموعه داده : 2.79 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864
صدای مشترک/ab
  • توضیحات پیکربندی : کد زبان: ab

  • حجم دانلود : 39.14 MiB

  • حجم مجموعه داده : 133.24 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

تقسیم کنید نمونه ها
'test' 9
'train' 22
'validation' 31
صدای مشترک/ar
  • توضیحات پیکربندی : کد زبان: ar

  • حجم دانلود : 1.64 GiB

  • حجم مجموعه داده : 67.16 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291
صدای مشترک/عنوان
  • توضیحات پیکربندی : کد زبان: as

  • حجم دانلود : 21.20 MiB

  • حجم مجموعه داده : 1.65 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 124
'test' 110
'train' 270
'validation' 504
صدای مشترک/بر
  • توضیحات پیکربندی : کد زبان: br

  • حجم دانلود : 443.72 MiB

  • حجم مجموعه داده : 13.46 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1997
'test' 2,087
'train' 2780
'validation' 8560
صدای مشترک/حدود
  • توضیحات پیکربندی : کد زبان: حدود

  • حجم دانلود : 19.32 GiB

  • اندازه مجموعه داده : 1.19 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15724
'test' 15724
'train' 285584
'validation' 416701
common_voice/cnh
  • توضیحات پیکربندی : کد زبان: cnh

  • حجم دانلود : 153.86 MiB

  • حجم مجموعه داده : 5.12 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 756
'test' 752
'train' 807
'validation' 2,432
common_voice/cs
  • توضیحات پیکربندی : کد زبان: cs

  • حجم دانلود : 1.18 GiB

  • حجم مجموعه داده : 56.89 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30,431
common_voice/cv
  • توضیحات پیکربندی : کد زبان: cv

  • حجم دانلود : 418.98 MiB

  • حجم مجموعه داده : 8.10 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 818
'test' 788
'train' 931
'validation' 3,496
صدای مشترک/سی
  • توضیحات پیکربندی : کد زبان: cy

  • حجم دانلود : 3.20 GiB

  • حجم مجموعه داده : 128.68 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4776
'test' 4820
'train' 6,839
'validation' 72984
صدای مشترک/de
  • توضیحات پیکربندی : کد زبان: de

  • حجم دانلود : 21.68 GiB

  • اندازه مجموعه داده : 1.29 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186
صدای مشترک/دی وی
  • توضیحات پیکربندی : کد زبان: dv

  • حجم دانلود : 515.45 MiB

  • حجم مجموعه داده : 31.59 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2077
'test' 2202
'train' 2680
'validation' 11,866
صدای مشترک/ال
  • توضیحات پیکربندی : کد زبان: el

  • حجم دانلود : 363.89 MiB

  • حجم مجموعه داده : 14.62 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5996
common_voice/eo
  • توضیحات پیکربندی : کد زبان: eo

  • حجم دانلود : 2.69 GiB

  • حجم مجموعه داده : 167.14 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 8,987
'test' 8969
'train' 19587
'validation' 58,094
صدای مشترک/es
  • توضیحات پیکربندی : کد زبان: es

  • حجم دانلود : 15.08 GiB

  • حجم مجموعه داده : 684.66 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314
common_voice/et
  • توضیحات پیکربندی : کد زبان: et

  • حجم دانلود : 731.63 MiB

  • حجم مجموعه داده : 37.95 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2,507
'test' 2509
'train' 2966
'validation' 10683
common_voice/eu
  • توضیحات پیکربندی : کد زبان: eu

  • حجم دانلود : 3.41 GiB

  • حجم مجموعه داده : 127.60 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,172
'test' 5,172
'train' 7505
'validation' 63,009
صدای مشترک/فا
  • توضیحات پیکربندی : کد زبان: fa

  • حجم دانلود : 8.27 GiB

  • حجم مجموعه داده : 328.61 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,213
'test' 5,213
'train' 7593
'validation' 251,659
صدای مشترک/فی
  • توضیحات پیکربندی : کد زبان: fi

  • حجم دانلود : 47.57 MiB

  • حجم مجموعه داده : 3.41 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 415
'test' 428
'train' 460
'validation' 1,305
صدای مشترک/فر
  • توضیحات پیکربندی : کد زبان: fr

  • حجم دانلود : 17.82 GiB

  • اندازه مجموعه داده : 1.17 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15763
'test' 15763
'train' 298,982
'validation' 461,004
common_voice/fy-NL
  • توضیحات پیکربندی : کد زبان: fy-NL

  • حجم دانلود : 1.15 GiB

  • حجم مجموعه داده : 29.93 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2790
'test' 3020
'train' 3,927
'validation' 10,495
common_voice/ga-IE
  • توضیحات پیکربندی : کد زبان: ga-IE

  • حجم دانلود : 149.30 MiB

  • حجم مجموعه داده : 5.11 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 497
'test' 506
'train' 541
'validation' 3,352
صدای مشترک/سلام
  • توضیحات پیکربندی : کد زبان: سلام

  • حجم دانلود : 20.43 MiB

  • حجم مجموعه داده : 1.15 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 135
'test' 127
'train' 157
'validation' 419
common_voice/hsb
  • توضیحات پیکربندی : کد زبان: hsb

  • حجم دانلود : 75.69 MiB

  • حجم مجموعه داده : 5.67 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 172
'test' 387
'train' 808
'validation' 1,367
صدای مشترک/هو
  • توضیحات پیکربندی : کد زبان: hu

  • حجم دانلود : 231.51 MiB

  • حجم مجموعه داده : 17.07 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,434
'test' 1649
'train' 3,348
'validation' 6,457
common_voice/ia
  • توضیحات پیکربندی : کد زبان: ia

  • حجم دانلود : 216.01 MiB

  • حجم مجموعه داده : 14.99 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1601
'test' 899
'train' 3,477
'validation' 5,978
common_voice/id
  • توضیحات پیکربندی : کد زبان: شناسه

  • حجم دانلود : 453.87 MiB

  • حجم مجموعه داده : 17.20 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8696
صدای مشترک/آن
  • توضیحات پیکربندی : کد زبان: آن

  • حجم دانلود : 5.20 GiB

  • حجم مجموعه داده : 316.38 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 12928
'test' 12928
'train' 58,015
'validation' 102,579
صدای مشترک/جا
  • توضیحات پیکربندی : کد زبان: ja

  • حجم دانلود : 145.80 MiB

  • حجم مجموعه داده : 6.83 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 586
'test' 632
'train' 722
'validation' 3,072
صدای مشترک/کا
  • توضیحات پیکربندی : کد زبان: ka

  • حجم دانلود : 99.45 MiB

  • حجم مجموعه داده : 7.51 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 527
'test' 656
'train' 1058
'validation' 2275
صدای مشترک/کاب
  • توضیحات پیکربندی : کد زبان: kab

  • حجم دانلود : 15.99 GiB

  • حجم مجموعه داده : 718.51 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 14622
'test' 14622
'train' 120,530
'validation' 573,718
صدای مشترک/ky
  • توضیحات پیکربندی : کد زبان: ky

  • حجم دانلود : 552.60 MiB

  • حجم مجموعه داده : 18.70 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1511
'test' 1,503
'train' 1,955
'validation' 9236
common_voice/lg
  • توضیحات پیکربندی : کد زبان: lg

  • حجم دانلود : 198.55 MiB

  • حجم مجموعه داده : 6.65 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 384
'test' 584
'train' 1250
'validation' 2220
common_voice/lt
  • توضیحات پیکربندی : کد زبان: lt

  • حجم دانلود : 129.03 MiB

  • حجم مجموعه داده : 4.79 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 244
'test' 466
'train' 931
'validation' 1,644
common_voice/lv
  • توضیحات پیکربندی : کد زبان: lv

  • حجم دانلود : 198.66 MiB

  • حجم مجموعه داده : 13.07 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2002
'test' 1,882
'train' 2,552
'validation' 6,444
صدای مشترک/من
  • توضیحات پیکربندی : کد زبان: mn

  • حجم دانلود : 463.84 MiB

  • حجم مجموعه داده : 22.09 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487
مشترک_صدا/mt
  • توضیحات پیکربندی : کد زبان: mt

  • حجم دانلود : 405.42 MiB

  • حجم مجموعه داده : 15.09 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,516
'test' 1,617
'train' 2036
'validation' 5,747
common_voice/nl
  • توضیحات پیکربندی : کد زبان: nl

  • حجم دانلود : 1.62 GiB

  • حجم مجموعه داده : 90.20 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4,938
'test' 5708
'train' 9,460
'validation' 52,488
صدای مشترک/یا
  • توضیحات پیکربندی : کد زبان: یا

  • حجم دانلود : 189.85 MiB

  • حجم مجموعه داده : 1.97 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 129
'test' 98
'train' 388
'validation' 615
common_voice/pa-IN
  • توضیحات پیکربندی : کد زبان: pa-IN

  • حجم دانلود : 66.52 MiB

  • حجم مجموعه داده : 1.03 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 44
'test' 116
'train' 211
'validation' 371
common_voice/pl
  • توضیحات پیکربندی : کد زبان: pl

  • حجم دانلود : 3.29 GiB

  • حجم مجموعه داده : 141.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791
Common_voice/pt
  • توضیحات پیکربندی : کد زبان: pt

  • حجم دانلود : 1.59 GiB

  • حجم مجموعه داده : 75.64 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4592
'test' 4641
'train' 6514
'validation' 41584
صدای مشترک/rm-sursilv
  • توضیحات پیکربندی : کد زبان: rm-sursilv

  • حجم دانلود : 263.17 MiB

  • حجم مجموعه داده : 12.31 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1205
'test' 1,194
'train' 1,384
'validation' 3783
صدای مشترک/rm-valader
  • توضیحات پیکربندی : کد زبان: rm-vallader

  • حجم دانلود : 103.11 MiB

  • حجم مجموعه داده : 4.89 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 357
'test' 378
'train' 574
'validation' 1,316
صدای مشترک/رو
  • توضیحات پیکربندی : کد زبان: ro

  • حجم دانلود : 249.84 MiB

  • حجم مجموعه داده : 14.54 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 858
'test' 1778
'train' 3,399
'validation' 6039
common_voice/ru
  • توضیحات پیکربندی : کد زبان: ru

  • حجم دانلود : 3.40 GiB

  • حجم مجموعه داده : 175.04 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 7,963
'test' 8007
'train' 15,481
'validation' 74,256
common_voice/rw
  • توضیحات پیکربندی : کد زبان: rw

  • حجم دانلود : 39.62 GiB

  • اندازه مجموعه داده : 2.18 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15032
'test' 15724
'train' 515,197
'validation' 832,929
صدای مشترک/صح
  • توضیحات پیکربندی : کد زبان: sah

  • حجم دانلود : 172.85 MiB

  • حجم مجموعه داده : 9.42 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 405
'test' 757
'train' 1,442
'validation' 2606
common_voice/sl
  • توضیحات پیکربندی : کد زبان: sl

  • حجم دانلود : 212.43 MiB

  • حجم مجموعه داده : 9.67 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 556
'test' 881
'train' 2038
'validation' 4669
common_voice/sv-SE
  • توضیحات پیکربندی : کد زبان: sv-SE

  • حجم دانلود : 401.91 MiB

  • حجم مجموعه داده : 18.27 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2019
'test' 2027
'train' 2,331
'validation' 12552
صدای مشترک/تا
  • توضیحات پیکربندی : کد زبان: ta

  • حجم دانلود : 648.28 MiB

  • حجم مجموعه داده : 24.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1779
'test' 1781
'train' 2009
'validation' 12652
صدای مشترک/ام
  • توضیحات پیکربندی : کد زبان: th

  • حجم دانلود : 325.49 MiB

  • حجم مجموعه داده : 18.32 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028
common_voice/tr
  • توضیحات پیکربندی : کد زبان: tr

  • حجم دانلود : 592.09 MiB

  • حجم مجموعه داده : 28.21 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18685
صدای مشترک/tt
  • توضیحات پیکربندی : کد زبان: tt

  • حجم دانلود : 741.15 MiB

  • حجم مجموعه داده : 46.85 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2,127
'test' 4,485
'train' 11211
'validation' 25781
common_voice/uk
  • توضیحات پیکربندی : کد زبان: انگلستان

  • حجم دانلود : 1.13 GiB

  • حجم مجموعه داده : 49.66 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 3,236
'test' 3,235
'train' 4035
'validation' 22,337
common_voice/vi
  • توضیحات پیکربندی : کد زبان: vi

  • حجم دانلود : 49.52 MiB

  • حجم مجموعه داده : 1.47 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 200
'test' 198
'train' 221
'validation' 619
صدای مشترک/رای
  • توضیحات پیکربندی : کد زبان: vot

  • حجم دانلود : 7.43 MiB

  • حجم مجموعه داده : 11.39 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

تقسیم کنید نمونه ها
'train' 3
'validation' 3
common_voice/zh-CN
  • توضیحات پیکربندی : کد زبان: zh-CN

  • حجم دانلود : 2.03 GiB

  • حجم مجموعه داده : 122.54 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 8743
'test' 8760
'train' 18541
'validation' 36,405
common_voice/zh-HK
  • توضیحات پیکربندی : کد زبان: zh-HK

  • حجم دانلود : 2.58 GiB

  • حجم مجموعه داده : 78.80 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,172
'test' 5,172
'train' 7506
'validation' 41,835
common_voice/zh-TW
  • توضیحات پیکربندی : کد زبان: zh-TW

  • حجم دانلود : 2.03 GiB

  • حجم مجموعه داده : 69.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61232