next up previous contents
Next: Conclusion Up: No Title Previous: Accès à un code

Subsections

Détection de clicks et Frontière Syllabique  

Détection de clicks

Dans les expériences des chapitres précédents, les sujets devaient détecter des syllabes ou des phonèmes à l'intérieur de stimuli auditifs. Ces tâches mobilisaient leurs capacités métalinguistiques (ou plus précisément "métaphonologiques ''). Ainsi, des sujets analphabètes auraient probablement les plus grandes difficultés à effectuer ces tâches [Morais, Cary, Alegria BertelsonMorais 1979,Read, Yun-Fei, Hong-Yin Bao-QingRead 1986].[*] Cela ne signifie pas nécessairement que les effets observés n'ont rien à voir avec les processus engagés dans la perception de la parole : ainsi, les temps de réaction sont étroitement liés aux caractéristiques acoustiques des stimuli. Toutefois, il est clairement désirable de compléter ces tâches par d'autres qui font moins appel à l'"introspection'' des sujets [Morais KolinskyMorais Kolinsky1994]. Dans ce chapitre, nous allons utiliser la technique de détection de clicks [Abrams BeverAbrams Bever1969,Holmes ForsterHolmes Forster1970][*] pour tester l'hypothèse selon laquelle la syllabe est une unité perceptive. Avant de présenter ce paradigme, nous allons détailler plusieurs autres techniques qui évitent également le recours à la "métaphonologie''.

Un premier exemple est le paradigme d'alternance. Dans le but d'étudier le temps de "déplacement'' de l'attention, [Cherry TaylorCherry Taylor1954] ont présenté à des sujets un message linguistique en alternance dans les deux oreilles. Ils mesuraient l'intelligibilité en fonction de la fréquence des changements d'oreille. Leur idée était que l'intelligibilité devait être minimale précisément quand l'alternance se produit à une fréquence telle que les changements d'oreille soient en opposition de phase avec le déplacement de l'attention. Ils ont effectivement observé un tel minimum de performance pour une fréquence d'alternance aux environs de 4 Hz. Cependant, [HugginsHuggins1964] a réinterprété ce résultat en remarquant que cette fréquence correspondait typiquement au débit syllabique. Selon lui, la perte d'intelligibilité serait due à l'interruption (maximale à 4 Hz) des unités perceptives que seraient les syllabes. A l'appui de cette hypothèse, Huggins (1964) montre que lorsqu'on accélère le débit syllabique de 20 %, on observe un déplacement concomitant de 20 % du minimum d'intelligibilité. Cela prouve que l'alternance affecte bien le traitement d'informations contenues dans le signal, mais ce résultat est-il vraiment du à l'interruption d'unités syllabiques ? [SamuelSamuel1991] a effectué un test plus direct de cette hypothèse en comparant deux situations : dans l'une, le changement d'oreille respecte les frontières syllabiques (donc les syllabes ne sont pas interrompues) ; dans l'autre le changement d'oreille a lieu au milieu des syllabes. Ses résultats sont extrêmement clairs : il n'y a aucune différence entre les deux situations. De plus, [SamuelSamuel1991] trouve également un effet similaire à celui d'Huggins avec des mélodies musicales (et une tâche de comparaison AX). Il interprète ces résultats comme provoqués par des processus de séparation des sources sonores [BregmanBregman1978].

Un deuxième paradigme est celui du masquage rétrograde : quand on présente deux stimuli auditifs à la suite l'un de l'autre, il est difficile de faire une tâche acoustique fine sur le premier si le second débute à moins de 250 msec de la fin du premier. L'interprétation est que le second remplace le premier dans une mémoire échoïque. Remarquant que la durée de 250 msec est celle d'une syllabe typique, Massaro (1972,1974) a proposé, sur la base de ces résultats, que la syllabe était l'unité de perception de la parole. Notons toutefois que l'argument est très indirect. Le fait que la fenêtre d'analyse du signal soit de la taille de la syllabe n'implique certainement pas que le signal soit segmenté en syllabes. Il n'y a aucune preuve du rôle des frontières syllabiques : la mémoire échoïque pourrait tout aussi bien contenir des anti-syllabes (signal entre voyelles successives). Ou bien, on pourrait imaginer des détecteurs de phonèmes indépendants utilisant une fenêtre d'intégration des indices acoustiques aussi large que 250 msec.

Finalement, [Kolinsky, Morais CluytensKolinsky 1994] présentent une tentative plus récente qui évite l'emploi d'une tâche métaphonologique.[*] Ils utilisent le phénomène de migration illusoire entre des sous-unités de mots présentés dichotiquement. Par exemple, si l'on présente au sujet les deux stimuli /kojou/ et /biton/, dans l'oreille droite et dans l'oreille gauche respectivement, il peut avoir l'illusion d'entendre /bijou/ et /coton/. Dans ce cas, il a "échangé'' les deux syllabes /ko/ et /bi/. Quelquefois, la migration peut s'interpréter comme un échange du premier phonème, ou encore d'un trait phonétique attaché au premier phonème. [Kolinsky, Morais CluytensKolinsky 1994] observent que la syllabe "migre'' relativement plus souvent que des unités plus petites chez des locuteurs français. Chez des locuteurs portugais, par contre, il y a une prépondérance des migrations du phonème initial, ce qui va à l'encontre des résultats observés avec la détection de syllabe [Morais, Content, Cary, Mehler SeguiMorais 1989]. Le problème de ce paradigme, où la réponse doit être un mot, est que l'origine des migrations (c'est à dire le niveau de traitement qui les provoque) est difficile à cerner, les illusions ne provenant pas nécessairement des premières étapes de traitement (voir, p.ex., l'effet "McGurk'').

L'expérience qui suit évite l'emploi d'une tâche métalinguistique. Nous avons décidé d'utiliser la détection de click, c'est à dire d'un petit bruit, surimposé sur un message linguistique. Dans les premières études, les sujets devaient simplement localiser le click, c'est à dire décrire où il se trouvait dans le message après avoir entendu celui-ci jusqu'à la fin. Ainsi, [Ladefoged BroadbentLadefoged Broadbent1960] ont observé que les sujets faisaient des erreurs de localisation assez systématiques : ils rapportaient typiquement que le click était placé une ou deux syllabes avant sa position réelle. Un peu plus tard, [Fodor BeverFodor Bever1965] ont trouvé que la position subjective du click était systématiquement attirée par les frontières syntaxiques de clause. Leur interprétation est que la clause est une "unité perceptive'' qui "résiste à l'interruption par le click''. Cette technique est quelque peu tombée en désuétude principalement parce que c'est une tâche de mémoire plutôt qu'une tâche perceptive, et qu'elle est susceptible de nombreux biais de réponses. Cependant, une variante simple consiste à demander aux sujets de détecter le click dès qu'ils l'entendent [Abrams BeverAbrams Bever1969,Holmes ForsterHolmes Forster1970,Holmes ForsterHolmes Forster1972]. L'idée est la suivante : la détection de click et la compréhension du message devant être effectuées simultanément, toute augmentation de la charge de traitement due aux processus de compréhension est reflétée par un ralentissement de la détection de click.[*] Par exemple, [Holmes ForsterHolmes Forster1970] ont trouvé que les clicks placés sur une frontière syntaxique étaient détectés plus rapidement que des clicks placés au milieu d'un syntagme (i.e. en cours de traitement). Plus récemment, [StofferStoffer1985] a employé la même technique pour étudier la perception des phrases musicales. Il a observé que le click était détecté plus rapidement aux frontières définies par la structure hiérarchique musicale. L'interprétation est que l'auditeur organise en temps réel la phrase musicale en unités cohérentes, et que son attention se trouve libérée aux frontières de celles-ci, facilitant la détection de click. Dans l'expérience qui suit, nous examinons l'influence des frontières syllabiques sur le temps de détection du click.

Expérience : Détection de clicks

L'hypothèse "syllabique'' est que la détection de click pourrait être affectée quand celui-ci se trouve en coïncidence avec une frontière syllabique (p.ex. entre le /a/ et le /l/ de /ba-lance/, plutôt qu'entre le /a/ et le /l/ de /bal-con/). Si les unités perceptives "résistent à l'interruption'', alors on s'attend à ce qu'il soit plus facile de détecter un click placé entre deux syllabes qu'un click placé au milieu d'une syllabe. Pour contrôler le mieux possible l'environnement phonétique, on a placé le click entre la voyelle et la consonne de stimuli de type "pa-lace'' et "pal-mier'' (`!' désignant le click, on compare la détection de `!' dans /pa!lace/ et dans /pa!lmier/). On a également placé un click après le segment `CVC' des mêmes mots. Si la variabilité due aux changements d'environnement phonétique n'est pas trop importante, on pourrait observer que la détection de `!' est plus rapide dans /pal!mier/ que dans /pal!ace/).

Description

Matériel :

144 mots français, tous bisyllabiques, ont été sélectionnés. Parmi eux, il y avait 60 mots tests, appariés deux à deux pour le segment initial CVC et dont l'un commençait par une syllabe ouverte et l'autre par une syllabe fermée. Ils formaient des paires de type /pa.lace/, /pal.mier/. Pour tester un éventail de types de frontières syllabiques, vingt mots tests avaient une occlusive pour consonne post-vocalique, vingt avaient une liquide et vingt autres un /s/ (cf tab.6.1).


 
Table 6.1: Mots tests pour la détection de click 
2|c|Occlusives (/k/,/p/) 2|c|Liquides (/l/,/r/) 2|c|Fricative (/s/)      
CVC. CV.C CVC. CV.C CVC. CV.C
lapsus lapin tartine tarif cascade cassette
capture capuche carton carotte pistache piscine
capsule capot tourment touriste moustache mousson
soupçon soupir furtif fureur suspect sucette
rupture rupestre virgule virus constat concert
facteur fakir balcon ballet cristal crisser
vaccin vacances palmier palace frisquet frisson
tactile taquin valser valise plastic placide
victime vicaire filmer filet plastron placer
jonction jonquille culture culotte transfert transept


On a enregistré, avec une fréquence d'échantillonnage de 16 kHz, un locuteur masculin lisant ces stimuli au rythme d'un toutes les deux secondes. Leur durée moyenne était de 643 msec ($\sigma=84$). Puis, en guise de click, on a synthétisé un ton pur à 1400 Hz qui durait 30 msec. L'amplitude maximale du click était de 4000 (max=16384), ce qui correspond à l'amplitude maximale typique atteinte par les voyelles dans notre enregistrement. Le click était par conséquent nettement audible.

A l'aide d'un éditeur de son, on a estimé les positions de la fin de la première voyelle et de la fin de la consonne post-vocalique pour chacun des 60 mots tests. Notons ici que ces mesures révèlent un comportement des liquides (/r/, /l/) différent de celui des autres consonnes (occlusives (/k/, /p/) et fricative /s/) : les liquides sont plus courtes quand elles se trouvent en attaque de seconde syllabe que quand elles se trouvent en coda de première syllabe, alors que c'est le cas inverse pour les autres consonnes (cf tab.6.1).


 
Figure 6.1: Longueurs moyennes des segments CV et CVC dans des mots commençant par une syllabe CV, ou bien par une syllabe CVC (entre parenthèses : écart-types de la moyenne) 
\begin{figure}


\unitlength=0.25mm

\thinlines 
 
\special{em:linewidth 0.6...
 ...13)}}\end{picture}
} \\ \end{tabular} 
\right.\end{displaymath}\end{figure}

On a construit une liste expérimentale dans laquelle tous les mots apparaissent deux fois : une fois dans la première moitié de la liste, et une fois dans la seconde. Cette liste est une suite d'essais. Chaque essai est constitué d'un mot et, éventuellement, d'un click pouvant apparaître avec différents décalages par rapport au début du mot. 176 essais possèdent un click et 112 essais n'en possèdent pas. Chaque mot test apparaît une fois avec le click juste après la voyelle, et une autre fois avec le click juste après la consonne post-vocalique (ceci étant contrebalancé entre les deux moitiés de la liste). Comme les clicks apparaissent toujours vers le milieu du mot dans les essais "tests'', les clicks des distracteurs ont été placés préférentiellement soit vers la fin soit vers le début du stimulus. Les distracteurs des première et deuxième moitiés de l'expérience ne sont pas exactement les mêmes (il y a seulement un recouvrement partiel). Ainsi, les mots accompagnés d'un click ne sont pas exactement les mêmes dans les deux moitiés de la liste. Enfin, il n'y a jamais plus de trois réponses identiques (click ou non-click) sur 3 essais successifs. Une deuxième liste expérimentale a été obtenue en échangeant les deux moitiés de la première.

Procédure :

Chaque sujet était testé individuellement. L'expérience se déroulait entièrement sous le contrôle d'un PC. Le sujet était averti qu'il allait entendre des mots dans l'oreille droite et, parfois, un click dans l'oreille gauche. Dès qu'il entendait un click, il devait appuyer le plus rapidement possible sur le bouton de réponse. Le sujet avait deux secondes pour répondre puis l'essai suivant débutait (l'intervalle entre chaque essai était d'environ 2.5 secondes). De plus, le sujet devait effectuer une tâche secondaire de reconnaissance des mots : tous les quinze essais, trois mots étaient successivement présentés (visuellement), et pour chacun d'entre eux le sujet devait indiquer (au clavier) s'il l'avait entendu dans les quinze essais précédents. L'expérience totale durait environ un quart d'heure.

Sujets :

Quarante sujets français, étudiants de diverses universités parisiennes ont participé volontairement à cette expérience. Vingt sujets étaient attribués à chaque liste expérimentale.

Résultats

Le taux global de fausse alarmes était de 2.6 % et le taux de manqués était de 0.5 %. Après avoir écrêté à 100 et 1000 msec (éliminant ainsi 0.6 % des données), on a effectué des analyses de variance, par sujets et par items, sur les moyennes des temps de réaction. Trois facteurs étaient déclarés : Mot (CV.C ou CVC.), Position du click (CV! ou CVC!), et Type de consonne postvocalique (Liquide, Occlusive ou Fricative).


 
Figure 6.2: Temps de réaction en détection de click.
\begin{figure}


\includegraphics [width=11cm,height=9cm]{clic.eps}


{\small...
 ...ez bien `7.3'). Intra-sujet, l'\'ecart-type moyen est de
83 msec.}\end{figure}

Le seul effet significatif dans les deux analyses (par items et par sujets) est dû au facteur Position du click : le click était détecté 20 msec plus rapidement après un segment CVC qu'après un segment CV. L'interaction entre Mot et Position du click (7 ms), et la différence de 12 msec entre les mots CVC- et CV-C quand le click apparaissait après la voyelle, sont toutes deux significatives dans l'analyse par sujets, mais pas dans l'analyse par items. En analysant ces deux effets (l'interaction Mot$\times$Position du click, et l'effet de Mot pour les clicks postvocaliques) pour chaque type de consonne, il apparaît qu'ils ne sont significatifs par items et par sujets, que pour les Liquides (Interaction=13 msec, effet de Mot=29 msec), mais pas pour les occlusives, ni pour les fricatives.


Analyse par sujets : PLAN  S40*C2*M2*T3
C = Position du  click (C1=CVC! et C2=CV!)
M = Type de mot (M1=CV-C et M2=CVC-)
T = Type de consonne Post-vocalique :
  T1 = Liquide
  T2 = Occlusive
  T3 = Fricative
       
 T              F(2,78)=  0.59    MSE=889.838    p=0.4432
 C              F(1,39)= 38.50    MSE=1343.72    p=0.0000
 C.T            F(2,78)=  1.87    MSE=1103.29    p=0.1610
 M              F(1,39)=  4.74    MSE=585.286    p=0.0356
 M.T            F(2,78)=  4.28    MSE=749.633    p=0.0172
 M.C            F(1,39)=  9.49    MSE=608.445    p=0.0038
 M.C.T          F(2,78)=  2.35    MSE=779.131    p=0.1021
 M/C1           F(1,39)=  0.49    MSE=553.556    p=0.4881
 M/C2           F(1,39)= 12.94    MSE=640.175    p=0.0009
 M.C/T1         F(1,39)=  8.92    MSE=825.341    p=0.0049
 M/C1/T1        F(1,39)=  0.12    MSE=427.002    p=0.2691
 M/C2/T1        F(1,39)= 15.85    MSE=1040.26    p=0.0003
 M.C/T2         F(1,39)=  0.00    MSE=761.19     p=1.0000
 M/C1/T2        F(1,39)=  0.00    MSE=831.833    p=1.0000
 M/C2/T2        F(1,39)=  0.00    MSE=569.789    p=1.0000
 M.C/T3         F(1,39)=  3.58    MSE=580.176    p=0.0659
 M/C1/T3        F(1,39)=  2.59    MSE=477.076    p=0.1156
 M/C2/T3        F(1,39)=  0.95    MSE=905.297    p=0.3357
 M/T1           F(1,39)= 14.29    MSE=641.922    p=0.0005
 M/T2           F(1,39)=  0.00    MSE=640.432    p=1.0000
 M/T3           F(1,39)=  0.02    MSE=802.196    p=0.1117

Analyse par items : PLAN  S10<T3>*C2*M2 
 T              F(2,27)=  0.30   MSE=494.743    p=0.2567
 C              F(1,27)= 30.75   MSE=406.715    p=0.0000
 C.T            F(2,27)=  1.36   MSE=406.715    p=0.2737
 M              F(1,27)=  0.92   MSE=602.535    p=0.3460
 M.T            F(2,27)=  0.98   MSE=602.535    p=0.3883
 M.C            F(1,27)=  2.60   MSE=574.763    p=0.1185
 M.C.T          F(2,27)=  0.72   MSE=574.763    p=0.4959
 M/C1           F(1,27)=  0.22   MSE=515.621    p=0.3572
 M/C2           F(1,27)=  2.92   MSE=661.677    p=0.0990
 M.C/T1         F(1,9)=  5.52    MSE=306.213    p=0.0433
 M/C1/T1        F(1,9)=  0.00    MSE=335.737    p=1.0000
 M/C2/T1        F(1,9)= 19.55    MSE=175.161    p=0.0017
 M.C/T2         F(1,9)=  0.00    MSE=809.742    p=1.0000
 M/C1/T2        F(1,9)=  0.00    MSE=441.008    p=1.0000
 M/C2/T2        F(1,9)=  0.00    MSE=886.575    p=1.0000
 M.C/T3         F(1,9)=  1.04    MSE=608.332    p=0.3345
 M/C1/T3        F(1,9)=  0.43    MSE=770.118    p=0.4716
 M/C2/T3        F(1,9)=  0.33    MSE=923.294    p=0.4203
 M/T1           F(1,9)=  8.48    MSE=204.684    p=0.0173
 M/T2           F(1,9)=  0.00    MSE=517.84     p=1.0000
 M/T3           F(1,9)=  0.00    MSE=1085.08    p=1.0000

Discussion

L'effet le plus robuste observé dans cette expérience est que le click est plus facile à détecter après le segment CVC qu'après le segment CV. On peut invoquer deux causes possibles : (a) la réponse s'accélérerait quand le click s'éloigne du début du stimulus ; (b) il y aurait un masquage énergétique moins important après la consonne qu'après la voyelle. L'hypothèse (a) est raisonnable : dans les tâches de détection, il est typique que le temps de réaction décroisse quand la cible est éloignée du début de l'essai [LuceLuce1986]. Cela peut s'interpréter comme une baisse du critère de décision du sujet. Pour tester l'hypothèse (a), nous avons effectué une régression linéaire entre la position temporelle du click et les temps de réaction moyens sur les mots tests. La corrélation est hautement significative (corr=-.32 ; F(1,118)=13.7 ; p=.003). Cela n'est pas surprenant puisque il y a une corrélation importante entre position temporelle et position phonémique (CV! vs CVC!). Toutefois, dans une régression multiple où l'on rajoute la variable catégorielle position phonémique ("après V'' ou " après C''), l'effet de position temporelle disparaît totalement. De plus, des régressions restreintes à CV! et CVC! ne révèlent aucune corrélation significative (corr=-.09 et corr=-.05 respectivement). Ces résultats rendent peu probable l'hypothèse d'une décroissance du temps de réaction avec la position temporelle de la cible. Quant à la seconde hypothèse (masquage énergétique), si elle ne peut être écartée sur la base de nos données, on voit difficilement comment elle peut expliquer la différence entre les mots CV.C et CVC. avec consonne post-vocalique liquide.

La théorie syllabique prédisait que le click serait plus facile à détecter quand il coïnciderait avec la frontière syllabique. Cet effet devait se traduire : (1) par un avantage des mots CV-C sur les mots CVC- quand le click était après la voyelle (CV!) et (2) éventuellement par une interaction entre la structure des mots et la position du click. Nos résultats suggèrent que ce n'est pas le cas, sauf quand la consonne post-vocalique est une liquide. Se pourrait-il que la frontière syllabique soit influencée par le type de consonne postvocalique ? Pour sélectionner le matériel, nous avions utilisé une syllabification "intuitive''. Toutefois, après coup, nous avons appris qu'il existait plusieurs théories sur la syllabification des groupes de consonnes. Certaines se fondent sur des critères acoustico-phonétiques, d'autres sont d'inspiration plus phonologique. La table 6.2 présente six propositions (d'après [LaeuferLaeufer1992]).


 
Table 6.2: Syllabifications de mots Français 
    Grammont 2cDelattre Pulgram Noske Levin  
          Malmberg    
      apt. force      
OL caprice -pr -pr -pr -pr -pr -pr
  atlas -tl -tl -tl t-l t-l t-l
ON technique -kn -kn -kn k-n k-n k-n
OF adverbe -dv -dv -dv d-v d-v d-v
OO structure -kt/k-t k-t k-t k-t k-t k-t
               
FL casserole -sr -sr -sr s-r s-r -sr
  disloque -sl -sl s-l s-l s-l s-l
  influent -fl -fl -fl -fl f-l -fl
FN transmis -sm s-m s-m s-m s-m s-m
FF blasphème -sf/s-f s-f s-f s-f s-f s-f
FO diphtongue f-t f-t f-t f-t f-t f-t
               
NL minerai -nr -nr -nr n-r n-r n-r
NN calomnie -mn/m-n -mn -mn m-n m-n m-n
NF hameçon m-s -ms -ms m-s m-s m-s
NO samedi m-d m-d -md m-d m-d m-d
               
LL galerie -lr/l-r -lr -lr l-r l-r l-r
  berlue -rl/r-l r-l r-l r-l r-l r-l
LN calmant l-m l-m -lm l-m l-m l-m
LF répulsif l-s l-s -ls l-s l-s l-s
LO culbute l-b l-b -lb l-b l-b l-b
               
8lO = occlusives ; F = fricatives ; N = nasales ; L = liquides              


Le cas des groupes de consonnes qui débutent par une occlusive est d'un intérêt particulier pour nous. Pratiquement toutes les théories s'accordent à syllabifier les groupes occlusive-occlusive (OO) entre les deux consonnes : /capture/ est syllabifié en /cap-ture/. Par contre, les théories sont en désaccord sur le statut des groupes occlusive-fricative (OF) : /capsule/ est-il /ca-psule/ ou /cap-sule/ ? Nos stimuli à consonne post-vocalique occlusive contenaient quatre mots de type OF et six mots de type OO. Nous avons donc effectué des analyses des temps de détection séparées pour ces deux groupes de stimuli. Celles-ci n'ont pas révélé de différence entre les stimuli OO et les stimuli OF. Il ne semble donc pas qu'une théorie alternative de la syllabification puisse expliquer l'absence d'effet sur les occlusives.

Se pourrait-il alors que les effets observés aient été provoqués par un artefact et n'aient pas de lien direct avec la structure syllabique des stimuli ? On ne peut être que frappé par le fait, qu'à la fois dans les mesures de durées et dans les temps de réaction, les liquides se comportent différemment des obstruantes (occlusives et /s/). Mais, à l'examen, il n'y a pas de relation directe entre les temps de réaction et la position temporelle du click.

Il est remarquable que dans les études originales de détection de fragments [MehlerMehler1981,Cutler, Mehler, Norris SeguiCutler 1986], tous les stimuli avaient une consonne post-vocalique liquide (palace, palmier, balance, balcon...etc). Cette observation a conduit Frauenfelder et Rietveld (cités dans [FrauenfelderFrauenfelder1992]) à réaliser, en hollandais, une expérience où ils variaient le type de consonne post-vocalique. En fait, ils ont observé l'interaction syllabique quand la consonne était une liquide (p.ex. polis-poolse), mais pas quand c'était une occlusive (p.ex. poker-pookte) ; les nasales (p.ex. steno-steentje) présentaient une tendance intermédiaire. Or les liquides sont réalisées par des allophones différents selon leur position syllabique (coda ou attaque), alors qu'il n'y a qu'un allophone pour les occlusives (en hollandais). L'interprétation de Frauenfelder et Rietveld est que, dans la tâche de détection de fragment, les sujets se forment une image de la cible qui contient des détails allophoniques dépendants de la structure syllabique. Leurs réponses seraient alors ralenties quand le signal contient un allophone différent de celui qu'ils attendent.

Il y a donc un parallèle entre leur résultat et le nôtre : dans les deux cas, l'"effet syllabique'' provient des liquides. Toutefois, l'analogie s'arrête là : dans la détection de click, les sujets n'ont pas à se former une image acoustique ou phonétique d'une cible linguistique, et donc les sujets ne s'attendent pas a priori à un certain type d'allophone. De plus, deux remarques méthodologiques doivent être signalées : leur expérience était réalisée en hollandais alors que la nôtre utilisait le français ; et une autre étude hollandaise ne trouve pas d'effet du type de consonne post-vocalique [Zwitserlood, Schriefers, Lahiri DonselaarZwitserlood 1993].

En français, il n'y a pas d'étude publiée de détection de fragment avec des consonnes qui ne soient pas des liquides. Toutefois, au laboratoire de Sciences Cognitives et Psycholinguistique, E. Dupoux (en préparation) a comblé cette lacune en utilisant exactement le même matériel (même enregistrement, mêmes stimuli) que celui de notre étude de détection de clicks. Les résultats qu'il a obtenu sont présentés table 6.3.


2cFricatives
     
  cv.c cvc.
cv 1|c702 1|c|743
cvc 1|c730 1|c|745
  2c13 ms  
  2c(p=.09)  
     
     


L'interaction "syllabique'' est significative aussi bien sur les occlusives que sur les liquides (elle n'est que marginale sur les stimuli avec un /s/ en position post-vocalique, dont la syllabification est d'ailleurs intuitivement moins claire).[*] Cela résout la question sur l'ambiguïté de la syllabification des stimuli avec occlusives, et par là-même, suggère que l'effet observé sur les liquides en détection de click pourrait bien n'être pas dû à la structure syllabique des stimuli.[*]

Finalement, cette expérience nous enseigne que la détection de click n'est pas très sensible à la présence de frontières syllabiques. Cela peut avoir deux causes : soit les frontières de syllabes ne sont pas des points particuliers pour les processus psychologiques, soit la méthode n'y est pas sensible. En tout cas, pour poursuivre avec cette technique, il faudrait d'abord déterminer si les effets de masquage acoustique sont négligeables ou non, en contrôlant précisément l'acoustique (ce qui implique d'utiliser des stimuli synthétiques. Mais alors, on court le risque de supprimer les indices de syllabicité contenus dans le signal.). Quoiqu'il en soit, la comparaison des temps de réaction entre des stimuli différents se heurtera toujours au risque que l'effet éventuellement observé soit dû à des facteurs non contrôlés.

Il nous semble cependant que la technique de détection de click pourrait être utilisée dans un esprit très différent de celui qui a motivé l'expérience précédente. Nos études d'induction attentionnelle en détection de phonème (chap.3) suggèrent de l'utiliser, non pas pour mesurer une "charge de traitement'', mais plutôt pour essayer d'induire des attentes quant à la position du click chez les sujets. Par exemple, si l'on habitue les sujets à détecter des clicks placés à des frontières syllabiques, il se pourrait qu'ils soient ensuite plus rapides pour détecter un click arrivant à nouveau dans une telle position plutôt qu'au milieu d'une syllabe (on comparerait ces sujets à d'autres pour qui les clicks apparaîtraient le plus souvent en milieu de syllabe). Cela prouverait que la frontière syllabique (a) est psychologiquement réelle et (b) est identifiée dans le temps très court que prend la détection de click. Utilisée de cette façon la détection de click pourrait être un instrument extrêmement puissant : on pourrait corréler le click avec quasiment n'importe quel type d'événement et observer si les sujets peuvent alors "prédire'' la position du click. Pour ne prendre qu'un exemple : on pourrait placer le click le plus souvent en correspondance avec les syllabes accentuées, et voir si des locuteurs d'une langue utilisant l'accent pour distinguer les mots (p.ex. les Espagnols, par opposition aux Français) peuvent utiliser cette régularité.


next up previous contents
Next: Conclusion Up: No Title Previous: Accès à un code
Christophe Pallier
10/13/1997