SWAC Metatags

L'enregistrement systématique de la prononciation de mots et d'expressions et la création de collections audio de langues est rendu possible par les avancées technologiques récentes.

Ces collections audio peuvent être utiles pour des usages :

  • de recherche en linguistique (par exemple pour enregistrer ou comparer la prononciation de différentes régions)
  • didactique (collections audio didactique comme "les verbes irréguliers anglais")
  • d'illustration (pour les dictionnaires électroniques)

L'échange de fichiers audio a été considérablement facilité par l'émergence de l'outil Internet. Les fichiers peuvent être facilement copiés et téléchargés... Cependant, comme pour être utilisés ou classés de façon pertinente, il faut que les enregistrements de mots ou d'expressions, soient associés à d'autres informations (de quel mot ou une expression s'agit il ?, quelle est la langue ?), il sera utile d'avoir un format standard d'enregistrement avec leurs informations associées.

Ainsi, les collections sonores pourront plus facilement être produites par différents logiciels, sur différentes plates formes, par différentes personnes.


Ce document propose une manière simple et pratique l'association d'informations à l'enregistrement sonore. Le but étant moins de définir les informations devant être définies mais plutôt la manière de les définir.

Plusieurs solutions serait possibles pour ce faire : nous pourrions, par exemple, associer un fichier texte contenant les champs d'information pour chaque enregistrement audio. Cette solution qui présente l'inconvénient de voir un même enregistrement matérialisé par deux fichiers différents.

Le système de Métadonnées Vorbis Comment permet de stocker des informations supplémentaires dans des fichiers Ogg Vorbis, Flac et Ogg Speex. Cette solution est très adaptée pour la mise en place de de collections de mots. Cette technologie existe déjà, est libre et largement utilisée et supportée. Elle permet un transfert aisé de fichiers audio avec les informations qui leur sont associées sans nécessiter de description supplémentaire puisque celles-ci sont directement enregistrées dans les fichiers audio sous forme de métadonnées contenues dans un tag Vorbis Comment.


La liste suivante est une proposition de liste de noms de champs et ce à quoi ils sont censés servir. Nous recommandons l'adoption d'un seul et même nom standard de nom pour une communauté produisant et utilisant des collections audio de mots. Ceci dans l'esprit des recommandations des champs Vorbis Comment : par exemple, dans le cadre d'une collection musicale, vous n'avez pas à remplir un champ donnant le nom de l'artiste mais si vous le faites, il vous faudra alors l'appeler "ARTIST" et non "BAND" ou quoi que ce soit d'autre.

Aucun de ces champs n'est conçu pour être obligatoire, mais nous pensons qu'il ne peut y avoir de véritable traitement automatique sans la présence des champs SWAC_TEXT et SWAC_LANG.

CHAMPS

1. Information à propos du texte prononcé :

SWAC_TEXT
Texte prononcé par un locuteur
  • « house »
  • « it's raining cats and dogs ! »
SWAC_LANG
La langue dans laquelle le mot est prononcé (ISO 639-3)
enregistrementvaleur
« rendezvous »eng
« rendez-vous »fra
« crocodile »eng
« crocodile »fra
SWAC_ALPHAIDX
Les mots-clés qui permettent aux programmes de générer automatiquement l'index alphabétique des collections. Le séparateur est «|» (U+007C).
enregistrementvaleur
« house » (eng)house
« It's raining cats and dogs! » (eng)rain|cat|dog
« I am » (eng)be
« 啊 » (chi)ā
« se laver » (fra)laver (se)
« j'ai faim » (fra)avoir|faim
« ett fönster » (swe)fönster
« telefonul » (ron)telefon
SWAC_BASEFORM
Quand l'enregistrement est une forme dérivée d'un mot, ce champ indique la forme de base (le lemme)
enregistrementvaleur
« I was » (eng)to be
« je vais » (fra)aller
« друзей » (rus)друг
SWAC_FORM_NAME
Quand le champ SWAC_BASEFORM est défini, ce champ indique alors le nom de la forme
enregistrementvaleur
« je vais » (fra)Present. 1p.S.
« друзей » (rus)Gen. Pl.
SWAC_FORM_REF
Nom de référenciel utilisé par le champ SWAC_FORM_NAME (par exemple, la codification LMF)
SWAC_HOMOGRAPHIDX
Index qui peut aider à différencier différents homographes à l'intérieur d'une collection audio Cet index peut être basé sur une différence grammaticale entre les homographes.
enregistrementvaleur
« пропа́сть » (rus)verb
« про́пасть » (rus)noun
« os » (fra) /os/sing
« os » (fra) /o/plur
Mais cela peut également être une traduction dans une autre langue (par exemple en anglais) ou bien une petite explication lorsque cette différence n'est pas de nature grammaticale.
enregistrementvaleur
« мука́ » (rus)flow
« му́ка » (rus)pain
« bass » (eng)fish
« bass » (eng)music
SWAC_HOMOGRAPHIDX_REF
Nom du référenciel utilisé par le champ SWAC_HOMOGRAPHIDX.

2. Informations sur le locuteur :

SWAC_SPEAK_NAME
Nom du locuteur
  • « Jacques Durand »
  • « Иван Иванович Иванов »
SWAC_SPEAK_GENDER
Sexe du locuteur [M/F]
  • M: masculin
  • F: féminin
SWAC_SPEAK_BIRTH_YEAR
Année de naissance du locuteur

(Format: YYYY)

SWAC_SPEAK_LANG
Langue maternelle du locuteur

(ISO 639-3)

SWAC_SPEAK_LANG_COUNTRY
Pays dans lequel le locuteur a acquis la SWAC_SPEAK_LANG

(ISO-3166-1)

SWAC_SPEAK_LANG_REGION
Région dans laquelle le locuteur a acquis la SWAC_SPEAK_LANG
  • « Pays basque »
SWAC_SPEAK_LANG_LOC
Géolocation de la SWAC_SPEAK_REGION (format: WGS 84 DM)
  • N 48°52.233 E 2°24.232
SWAC_SPEAK_PRON
Note générale à propos de la prononciation du locuteur (par exemple, dans le cas d'un défaut de prononciation)
SWAC_SPEAK_LIV_COUNTRY
Code du pays dans lequel habite le locuteur

(ISO-3166-1)

SWAC_SPEAK_LIV_TOWN
Nom de la ville dans laquelle habite le locuteur
  • « Saint-Jean-Pied-de-Port »
SWAC_SPEAK_CONTACT
Information permettant de contacter le locuteur
  • « jacques-durand@shtooka.net »
SWAC_SPEAK_DESC
Note libre à propos du locuteur

3. Information sur la prononciation du mot :

SWAC_PRON_INTONATION
Indication de l'intonation
enregistrementvaleur
« oh »Surprise
« oh »Realization
SWAC_PRON_SPEED
[1/2/3]
  • 1: prononciation lente pour un usage pédagogique
  • 2: prononciation normale
  • 3: rapide
SWAC_PRON_COMMENT
Commentaire à propos de la prononciation du mot par le locuteur
enregistrementvaleur
« abasourdir » (fra) /a.ba.zuʁ.diʁ/ Prononciation académique
« abasourdir » (fra) /a.ba.suʁ.diʁ/ Prononciation populaire
« догово́р » (rus) Prononciation standard
« до́говор » (rus) Prononciation populaire du sud de la Russie
SWAC_PRON_API
Transcription phonétique à l'aide de l'alphabet phonétique international API
SWAC_PRON_PHON
Transcription phonétique spécifique à la langue donnée
enregistrementvaleur
« мука » (rus) мука́ (avec un symbole diacritique)
« 啊 » (chi) ā (la transcription en pinyin)

4. Information à propos de la collection audio :

SWAC_COLL_NAME
  • « Base audio libre de mots français »
SWAC_COLL_SECTION
Section à l'intérieur de la collection
SWAC_COLL_DESC
Description de la collection
SWAC_COLL_ORG
Organisation ayant enregistrée la collection audio
SWAC_COLL_ORG_URL
URL d'une page sur laquelle on trouvera plus d'informations sur l'organisation en question
SWAC_COLL_LICENSE
License sous laquelle est diffusée la collection audio
SWAC_COLL_COPYRIGHT
Copyright de la collection audio
SWAC_COLL_AUTHORS
Auteurs de la collection
SWAC_COLL_URL
URL d'une page sur laquelle on trouvera plus d'informations à propos de la collection

5. Informations techniques :

SWAC_TECH_QLT
Qualité audio [1/2/3/4/5]
  • 1: très mauvaise
  • 2: mauvaise
  • 3: normale
  • 4: bonne
  • 5: très bonne
SWAC_TECH_DATE
Date d'enregistrement

(Format: AAAA-MM-JJ)

SWAC_TECH_SOFT
Nom du programme utilisé pour l'enregistrement

Note à propos des spécifications de Vorbis Comment :

Veuillez consulter le site officiel de Vorbis Comment à l'adresse suivante : http://xiph.org/vorbis/doc/v-comment.html pour de plus amples information à propos des métadonnées.

Le contenu des champs tels TITLE, DESCRIPTION, LICENSE et COPYRIGHT peuvent être définies avec n'importe quelle valeurs. Ces champs peuvent être complétés automatiquement en utilisant les informations fournies par les champs SWAC, de plus nous recommandons de définir la valeur du champ GENRE à « Speech ».

GENRE
« Speech »

According to the general Vorbis Comment specifications, the use of additional fields is allowed. This enables SWAC Fields to cohabit with other specific data. For example, electronic dictionaries can use specific tags such as « OMEGAWIKI_ARTICLEIDX » to link audio items to their articles.

Note about the ID3v2 Tagging Format:

Since the availability of the 2.4 version of the ID3 Tagging Format, it is possible to store Unicode character strings in MP3 audio files. We do not recommend the use of this tagging format but SWAC fields can be stored as « TXXX » frames.

Please consult the ID3 Tagging Format home page at http://www.id3.org/ for more information.

Note about this document:

Ce document est distribué par le Proojet Shtooka sous une licence Creative Commons BY-SA. Vous trouverez plus d'informations à propos de cette licence à l'adresse suivante : http://creativecommons.org/licenses/by/2.0/fr/deed.en_GB