研究成果Publications

ツール・アーカイブ

Bantu Microvariation Digital Archive

投稿日:2021.05.17

品川大輔、李勝勲

https://renelda.aa-ken.jp/

This archive is a collection of text, audio, and plots of data from six southern Bantu languages: Northern Sotho, Siswati, Southern Ndebele, Sesotho, Tshivenda and Xitsonga. The dataset is based on sentences collected as part of the Bantu Morphosyntactic Microvariation project in Thohoyandou, Limpopo, South Africa in March 2020.

※情報資源利用研究センター(IRC)プロジェクトの成果として公開しています。

 

情報資源利用研究センターウェブサイトのトピックス記事でも取り上げられていますので、以下に転載します。


本プロジェクトは、南アフリカで話される現地民族語を対象として、バントゥ諸語類型論の進展に資する言語資料を電子的にアーカイブできる形で収集することを目的とする2020年度IRCプロジェクトです。プロジェクトの研究成果として2021年3月にオンラインリソース「バントゥ・マイクロバリエーション・デジタルアーカイブ」を公開しました。このリソースは、南部バントゥ諸語の6つの言語(北ソト語、南ソト語、スワティ語、南ンデベレ語、ヴェンダ語、ツォンガ語)のテキストや音声データと、それらのデータを音声分析プログラムにかけて生成された結果のコレクションです。

北ソト語は、南アフリカで約470万人の人々によって話されています。南ソト語は、南アフリカおよびレソトで約560万人の人々によって話されています。スワティ語は、南アフリカ、エスワティーニ、レソト、モザンビークで約230万人の人々によって話されています。南ンデベレ語は、南アフリカで約110万人の人々によって話されています。ヴェンダ語は、南アフリカとジンバブエで約130万人の人々によって話されています。ツォンガ語は、南アフリカ、ジンバブエ、モザンビークで約1,200万人の人々によって話されています。

このリソースのデータセットは、2020年3月に南アフリカ・ヴェンダ大学にて、現地研究機関(MER Mathivha Centre for African Languages, Arts and Culture)との共同研究* によって収集、録音されたもので、全てのファイルには語のレベルでアノテーションが付けられています。オリジナルの録音データ(16bit、44.1KHz)のダウンロードが必要な方は、リソースに掲載されている専用フォームよりお問い合わせください。

* データ収集のための共同研究調査は、日本学術振興会研究拠点形成事業(B.アジア・アフリカ学術基盤形成型)「アフリカにおける言語多様性とダイナミズムに迫るアフリカ諸語研究ネットワークの構築(略称:ReNeLDA)」の枠組みで遂行されました。

(文責:品川大輔・安達真弓)

印刷

PAGE
TOP