2. Analyse lexicale

Un programme Python est lu par un analyseur syntaxique (parser en anglais). En entrée de cet analyseur syntaxique, nous trouvons des lexèmes (tokens en anglais), produits par un analyseur lexical. Ce chapitre décrit comment l’analyseur lexical découpe le fichier en lexèmes.

Python lit le texte du programme comme des suites de caractères Unicode ; l’encodage du fichier source peut être spécifié par une déclaration d’encodage et vaut par défaut UTF-8, voir la PEP 3120 pour les détails. Si le fichier source ne peut pas être décodé, une exception SyntaxError (erreur de syntaxe) est levée.

2.1. Structure des lignes

Un programme en Python est divisé en lignes logiques.

2.1.1. Lignes logiques

La fin d’une ligne logique est représentée par le lexème NEWLINE. Les instructions ne peuvent pas traverser les limites des lignes logiques, sauf quand NEWLINE est autorisé par la syntaxe (par exemple, entre les instructions des instructions composées). Une ligne logique est constituée d’une ou plusieurs lignes physiques en fonction des règles, explicites ou implicites, de continuation de ligne.

2.1.2. Lignes physiques

A physical line is a sequence of characters terminated by an end-of-line sequence. In source files, any of the standard platform line termination sequences can be used - the Unix form using ASCII LF (linefeed), the Windows form using the ASCII sequence CR LF (return followed by linefeed), or the old Macintosh form using the ASCII CR (return) character. All of these forms can be used equally, regardless of platform.

Lorsque vous encapsulez Python, les chaînes de code source doivent être passées à l’API Python en utilisant les conventions du C standard pour les caractères de fin de ligne : le caractère \n, dont le code ASCII est LF.

2.1.3. Commentaires

Un commentaire commence par le caractère croisillon (#, hash en anglais et qui ressemble au symbole musical dièse, c’est pourquoi il est souvent improprement appelé caractère dièse) situé en dehors d’une chaine de caractères littérale et se termine à la fin de la ligne physique. Un commentaire signifie la fin de la ligne logique à moins qu’une règle de continuation de ligne implicite ne s’applique. Les commentaires sont ignorés au niveau syntaxique, ce ne sont pas des lexèmes.

2.1.4. Déclaration d’encodage

Si un commentaire placé sur la première ou deuxième ligne du script Python correspond à l’expression rationnelle coding[=:]\s*([-\w.]+), ce commentaire est analysé comme une déclaration d’encodage ; le premier groupe de cette expression désigne l’encodage du fichier source. Cette déclaration d’encodage doit être seule sur sa ligne et, si elle est sur la deuxième ligne, la première ligne doit aussi être une ligne composée uniquement d’un commentaire. Les formes recommandées pour l’expression de l’encodage sont :

# -*- coding: <encoding-name> -*-

qui est reconnue aussi par GNU Emacs et :

# vim:fileencoding=<encoding-name>

qui est reconnue par VIM de Bram Moolenaar.

Si aucune déclaration d’encodage n’est trouvée, l’encodage par défaut est utilisé : UTF-8. En plus, si les premiers octets du fichier sont l’indicateur d’ordre des octets UTF-8 (b'\xef\xbb\xbf', BOM en anglais pour byte order mark), le fichier est considéré comme étant en UTF-8 (cette convention est reconnue, entre autres, par notepad de Microsoft).

Si un encodage est déclaré, le nom de l’encodage doit être reconnu par Python. L’encodage est utilisé pour toute l’analyse lexicale, y compris les chaînes de caractères, les commentaires et les identifiants.

2.1.5. Continuation de ligne explicite

Deux lignes physiques, ou plus, peuvent être jointes pour former une seule ligne logique en utilisant la barre oblique inversée (\) selon la règle suivante : quand la ligne physique se termine par une barre oblique inversée qui ne fait pas partie d’une chaine de caractères ou d’un commentaire, la ligne immédiatement suivante lui est adjointe pour former une seule ligne logique, en supprimant la barre oblique inversée et le caractère de fin de ligne. Par exemple :

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

Une ligne que se termine par une barre oblique inversée ne peut pas avoir de commentaire. La barre oblique inversée ne permet pas de continuer un commentaire. La barre oblique inversée ne permet pas de continuer un lexème, sauf s’il s’agit d’une chaîne de caractères (par exemple, les lexèmes autres que les chaînes de caractères ne peuvent pas être répartis sur plusieurs lignes en utilisant une barre oblique inversée). La barre oblique inversée n’est pas autorisée ailleurs sur la ligne, en dehors d’une chaîne de caractères.

2.1.6. Continuation de ligne implicite

Les expressions entre parenthèses, crochets ou accolades peuvent être réparties sur plusieurs lignes sans utiliser de barre oblique inversée. Par exemple :

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

Les lignes continuées implicitement peuvent avoir des commentaires. L’indentation des lignes de continuation n’est pas importante. Une ligne blanche est autorisée comme ligne de continuation. Il ne doit pas y avoir de lexème NEWLINE entre des lignes implicitement continuées. Les lignes continuées implicitement peuvent être utilisées dans des chaînes entre triples guillemets (voir ci-dessous) ; dans ce cas, elles ne peuvent pas avoir de commentaires.

2.1.7. Lignes vierges

Une ligne logique qui ne contient que des espaces, tabulations, caractères de saut de page (formfeed en anglais) ou commentaires est ignorée (c’est-à-dire que le lexème NEWLINE n’est pas produit). Pendant l’édition interactive d’instructions, la gestion des lignes vierges peut différer en fonction de l’implémentation de la boucle REPL. Dans l’interpréteur standard, une ligne complètement vierge (c’est-à-dire ne contenant strictement rien, même pas une espace ou un commentaire) termine une instruction multi-lignes.

2.1.8. Indentation

Des espaces ou tabulations au début d’une ligne logique sont utilisées pour connaître le niveau d’indentation de la ligne, qui est ensuite utilisé pour déterminer comment les instructions sont groupées.

Les tabulations sont remplacées (de la gauche vers la droite) par une à huit espaces de manière à ce que le nombre de caractères remplacés soit un multiple de huit (nous avons ainsi la même règle que celle d’Unix). Le nombre total d’espaces précédant le premier caractère non blanc détermine alors le niveau d’indentation de la ligne. L’indentation ne peut pas être répartie sur plusieurs lignes physiques à l’aide de barres obliques inversées ; les espaces jusqu’à la première barre oblique inversée déterminent l’indentation.

L’indentation est déclarée inconsistante et rejetée si, dans un même fichier source, le mélange des tabulations et des espaces est tel que la signification dépend du nombre d’espaces que représente une tabulation. Une exception TabError est levée dans ce cas.

Note de compatibilité entre les plateformes : en raison de la nature des éditeurs de texte sur les plateformes non Unix, il n’est pas judicieux d’utiliser un mélange d’espaces et de tabulations pour l’indentation dans un seul fichier source. Il convient également de noter que des plateformes peuvent explicitement limiter le niveau d’indentation maximal.

Un caractère de saut de page peut être présent au début de la ligne ; il est ignoré pour les calculs d’indentation ci-dessus. Les caractères de saut de page se trouvant ailleurs avec les espaces en tête de ligne ont un effet indéfini (par exemple, ils peuvent remettre à zéro le nombre d’espaces).

Les niveaux d’indentation de lignes consécutives sont utilisés pour générer les lexèmes INDENT et DEDENT, en utilisant une pile, de cette façon :

Avant que la première ligne du fichier ne soit lue, un « zéro » est posé sur la pile ; il ne sera plus jamais enlevé. Les nombres empilés sont toujours strictement croissants de bas en haut. Au début de chaque ligne logique, le niveau d’indentation de la ligne est comparé au sommet de la pile. S’ils sont égaux, il ne se passe rien. S’il est plus grand, il est empilé et un lexème INDENT est produit. S’il est plus petit, il doit être l’un des nombres présents dans la pile ; tous les nombres de la pile qui sont plus grands sont retirés et, pour chaque nombre retiré, un lexème DEDENT est produit. À la fin du fichier, un lexème DEDENT est produit pour chaque nombre supérieur à zéro restant sur la pile.

Voici un exemple de code Python correctement indenté (bien que très confus) :

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

L’exemple suivant montre plusieurs erreurs d’indentation :

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

En fait, les trois premières erreurs sont détectées par l’analyseur syntaxique ; seule la dernière erreur est trouvée par l’analyseur lexical (l’indentation de return r ne correspond à aucun niveau dans la pile).

2.1.9. Espaces entre lexèmes

Sauf au début d’une ligne logique ou dans les chaînes de caractères, les caractères « blancs » espace, tabulation et saut de page peuvent être utilisés de manière interchangeable pour séparer les lexèmes. Un blanc n’est nécessaire entre deux lexèmes que si leur concaténation pourrait être interprétée comme un lexème différent (par exemple, ab est un lexème, mais a b comporte deux lexèmes).

2.2. Autres lexèmes

Outre NEWLINE, INDENT et DEDENT, il existe les catégories de lexèmes suivantes : identifiants, mots clés, littéraux, opérateurs et délimiteurs. Les blancs (autres que les fins de lignes, vus auparavant) ne sont pas des lexèmes mais servent à délimiter les lexèmes. Quand une ambiguïté existe, le lexème correspond à la plus grande chaîne possible qui forme un lexème licite, en lisant de la gauche vers la droite.

2.3. Identifiants et mots-clés

Les identifiants (aussi appelés noms) sont décrits par les définitions lexicales suivantes.

La syntaxe des identifiants en Python est basée sur l’annexe UAX-31 du standard Unicode avec les modifications définies ci-dessous ; consultez la PEP 3131 pour plus de détails.

Dans l’intervalle ASCII (U+0001..U+007F), les caractères licites pour les identifiants sont les mêmes que pour Python 2.x : les lettres minuscules et majuscules de A à Z, le souligné (ou underscore) _ et, sauf pour le premier caractère, les chiffres de 0 à 9.

Python 3.0 introduit des caractères supplémentaires en dehors de l’intervalle ASCII (voir la PEP 3131). Pour ces caractères, la classification utilise la version de la « base de données des caractères Unicode » telle qu’incluse dans le module unicodedata.

Les identifiants n’ont pas de limite de longueur. La casse est prise en compte.

identifier   ::=  xid_start xid_continue*
id_start     ::=  <all characters in general categories Lu, Ll, Lt, Lm, Lo, Nl, the underscore, and characters with the Other_ID_Start property>
id_continue  ::=  <all characters in id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  <all characters in id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  <all characters in id_continue whose NFKC normalization is in "id_continue*">

Les codes de catégories Unicode cités ci-dessus signifient :

  • Lu – lettre majuscules
  • Ll – lettres minuscules
  • Lt – lettres majuscules particulières (catégorie titlecase de l’Unicode)
  • Lm – lettres modificatives avec chasse
  • Lo – autres lettres
  • Nl – nombres lettres (par exemple, les nombres romains)
  • Mn – symboles que l’on combine avec d’autres (accents ou autres) sans générer d’espace (nonspacing marks en anglais)
  • Mc – symboles que l’on combine avec d’autres en générant une espace (spacing combining marks en anglais)
  • Nd – chiffres (arabes et autres)
  • Pc – connecteurs (tirets et autres lignes)
  • Other_ID_Start - explicit list of characters in PropList.txt to support backwards compatibility
  • Other_ID_Continue – pareillement

Tous les identifiants sont convertis dans la forme normale NFKC pendant l’analyse syntaxique : la comparaison des identifiants se base sur leur forme NFKC.

Un fichier HTML, ne faisant pas référence, listant tous les caractères valides pour Unicode 4.1 se trouve à https://www.dcl.hpi.uni-potsdam.de/home/loewis/table-3131.html.

2.3.1. Mots-clés

Les identifiants suivants sont des mots réservés par le langage et ne peuvent pas être utilisés en tant qu’identifiants normaux. Ils doivent être écrits exactement comme ci-dessous :

False      class      finally    is         return
None       continue   for        lambda     try
True       def        from       nonlocal   while
and        del        global     not        with
as         elif       if         or         yield
assert     else       import     pass
break      except     in         raise

2.3.2. Classes réservées pour les identifiants

Certaines classes d’identifiants (outre les mots-clés) ont une signification particulière. Ces classes se reconnaissent par des caractères de soulignement en tête et en queue d’identifiant :

_*

L’identifiant spécial _ n’est pas importé par from module import *. Il est utilisé dans l’interpréteur interactif pour stocker le résultat de la dernière évaluation ; il est stocké dans le module builtins. Lorsque vous n’êtes pas en mode interactif, _ n’a pas de signification particulière et n’est pas défini. Voir la section L’instruction import.

Note

Le nom _ est souvent utilisé pour internationaliser l’affichage ; reportez-vous à la documentation du module gettext pour plus d’informations sur cette convention.

__*__
Noms définis par le système. Ces noms sont définis par l’interpréteur et son implémentation (y compris la bibliothèque standard). Les noms actuels définis par le système sont abordés dans la section Méthodes spéciales, mais aussi ailleurs. D’autres noms seront probablement définis dans les futures versions de Python. Toute utilisation de noms de la forme __*__, dans n’importe quel contexte, qui n’est pas conforme à ce qu’indique explicitement la documentation, est sujette à des mauvaises surprises sans avertissement.
__*
Noms privés pour une classe. Les noms de cette forme, lorsqu’ils sont utilisés dans le contexte d’une définition de classe, sont réécrits sous une forme modifiée pour éviter les conflits de noms entre les attributs « privés » des classes de base et les classes dérivées. Voir la section Identifiants (noms).

2.4. Littéraux

Les littéraux sont des notations pour indiquer des valeurs constantes de certains types natifs.

2.4.1. Littéraux de chaînes de caractères et de suites d’octets

Les chaînes de caractères littérales sont définies par les définitions lexicales suivantes :

stringliteral   ::=  [stringprefix](shortstring | longstring)
stringprefix    ::=  "r" | "u" | "R" | "U"
shortstring     ::=  "'" shortstringitem* "'" | '"' shortstringitem* '"'
longstring      ::=  "'''" longstringitem* "'''" | '"""' longstringitem* '"""'
shortstringitem ::=  shortstringchar | stringescapeseq
longstringitem  ::=  longstringchar | stringescapeseq
shortstringchar ::=  <any source character except "\" or newline or the quote>
longstringchar  ::=  <any source character except "\">
stringescapeseq ::=  "\" <any source character>
bytesliteral   ::=  bytesprefix(shortbytes | longbytes)
bytesprefix    ::=  "b" | "B" | "br" | "Br" | "bR" | "BR" | "rb" | "rB" | "Rb" | "RB"
shortbytes     ::=  "'" shortbytesitem* "'" | '"' shortbytesitem* '"'
longbytes      ::=  "'''" longbytesitem* "'''" | '"""' longbytesitem* '"""'
shortbytesitem ::=  shortbyteschar | bytesescapeseq
longbytesitem  ::=  longbyteschar | bytesescapeseq
shortbyteschar ::=  <any ASCII character except "\" or newline or the quote>
longbyteschar  ::=  <any ASCII character except "\">
bytesescapeseq ::=  "\" <any ASCII character>

Une restriction syntaxique non indiquée par ces règles est qu’aucun blanc n’est autorisé entre le stringprefix ou bytesprefix et le reste du littéral. Le jeu de caractères source est défini par la déclaration d’encodage ; il vaut UTF-8 si aucune déclaration d’encodage n’est donnée dans le fichier source ; voir la section Déclaration d’encodage.

Description en français : les deux types de littéraux peuvent être encadrés par une paire de guillemets simples (') ou doubles ("). Ils peuvent aussi être encadrés par une paire de trois guillemets simples ou une paire de trois guillemets doubles (on appelle alors généralement ces chaînes entre triples guillemets). La barre oblique inversée peut être utilisée pour échapper des caractères qui auraient sinon une signification spéciale, tels que le retour à la ligne, la barre oblique inversée elle-même ou le guillemet utilisé pour délimiter la chaîne.

Les littéraux de suites d’octets sont toujours préfixés par 'b' ou 'B' ; cela crée une instance de type bytes au lieu du type str. Ils ne peuvent contenir que des caractères ASCII ; les octets dont la valeur est supérieure ou égale à 128 doivent être exprimés à l’aide d’échappements.

As of Python 3.3 it is possible again to prefix string literals with a u prefix to simplify maintenance of dual 2.x and 3.x codebases.

Les chaînes et suites d’octets littérales peuvent être préfixées par la lettre 'r' ou 'R' ; de telles chaînes sont appelées chaines brutes (raw strings en anglais) et traitent la barre oblique inversée comme un caractère normal. En conséquence, les chaînes littérales '\U' et '\u' ne sont pas considérées comme spéciales. Comme les littéraux Unicode de Python 2.x se comportent différemment, la syntaxe 'ur' n’est pas reconnue en Python 3.x.

Nouveau dans la version 3.3: le préfixe 'rb' a été ajouté comme synonyme de 'br' pour les littéraux de suites d’octets.

Nouveau dans la version 3.3: le support du préfixe historique pour les chaînes Unicode a été réintroduit afin de simplifier la maintenance de code compatible Python 2.x et 3.x. Voir la PEP 414 pour davantage d’informations.

Dans les chaînes entre triples guillemets, les sauts de ligne et guillemets peuvent ne pas être échappés (et sont donc pris en compte), mais trois guillemets non échappés à la suite terminent le littéral (on entend par guillemet le caractère utilisé pour commencer le littéral, c’est-à-dire ' ou ").

À moins que le préfixe 'r' ou 'R' ne soit présent, les séquences d’échappement dans les littéraux de chaînes et suites d’octets sont interprétées comme elles le seraient par le C Standard. Les séquences d’échappement reconnues sont :

Séquence d’échappement Signification Notes
\newline barre oblique inversée et retour à la ligne ignorés  
\\ barre oblique inversée (\)  
\' guillemet simple (')  
\" guillemet double (")  
\a cloche ASCII (BEL)  
\b retour arrière ASCII (BS)  
\f saut de page ASCII (FF)  
\n saut de ligne ASCII (LF)  
\r retour à la ligne ASCII (CR)  
\t tabulation horizontale ASCII (TAB)  
\v tabulation verticale ASCII (VT)  
\ooo caractère dont le code est ooo en octal (1,3)
\xhh caractère dont le code est ooo en hexadécimal (2,3)

Les séquences d’échappement reconnues seulement dans les chaînes littérales sont :

Séquence d’échappement Signification Notes
\N{name} caractère dont le nom est name dans la base de données Unicode (4)
\uxxxx caractère dont le code est xxxx en hexadécimal (5)
\Uxxxxxxxx caractère dont le code est xxxxxxxx en hexadécimal sur 32 bits (6)

Notes :

  1. Comme dans le C Standard, jusqu’à trois chiffres en base huit sont acceptés.

  2. Contrairement au C Standard, il est obligatoire de fournir deux chiffres hexadécimaux.

  3. Dans un littéral de suite d’octets, un échappement hexadécimal ou octal est un octet dont la valeur est donnée. Dans une chaîne littérale, un échappement est un caractère Unicode dont le code est donné.

  4. Modifié dans la version 3.3: Ajout du support pour les alias de noms [1].

  5. Exactement quatre chiffres hexadécimaux sont requis.

  6. N’importe quel caractère Unicode peut être encodé de cette façon. Exactement huit chiffres hexadécimaux sont requis.

Contrairement au C standard, toutes les séquences d’échappement non reconnues sont laissées inchangées dans la chaîne, c’est-à-dire que la barre oblique inversée est laissée dans le résultat (ce comportement est utile en cas de débogage : si une séquence d’échappement est mal tapée, la sortie résultante est plus facilement reconnue comme source de l’erreur). Notez bien également que les séquences d’échappement reconnues uniquement dans les littéraux de chaînes de caractères ne sont pas reconnues pour les littéraux de suites d’octets.

Même dans une chaîne littérale brute, les guillemets peuvent être échappés avec une barre oblique inversée mais la barre oblique inversée reste dans le résultat ; par exemple, r"\"" est une chaîne de caractères valide composée de deux caractères : une barre oblique inversée et un guillemet double ; r"\" n’est pas une chaîne de caractères valide (même une chaîne de caractères brute ne peut pas se terminer par un nombre impair de barres obliques inversées). Plus précisément, une chaîne littérale brute ne peut pas se terminer par une seule barre oblique inversée (puisque la barre oblique inversée échappe le guillemet suivant). Notez également qu’une simple barre oblique inversée suivie d’un saut de ligne est interprétée comme deux caractères faisant partie du littéral et non comme une continuation de ligne.

2.4.2. Concaténation de chaînes de caractères

Plusieurs chaînes de caractères ou suites d’octets adjacentes (séparées par des blancs), utilisant éventuellement des conventions de guillemets différentes, sont autorisées. La signification est la même que leur concaténation. Ainsi, "hello" 'world' est l’équivalent de "helloworld". Cette fonctionnalité peut être utilisée pour réduire le nombre de barres obliques inverses, pour diviser de longues chaînes de caractères sur plusieurs lignes ou même pour ajouter des commentaires à des portions de chaînes de caractères. Par exemple :

re.compile("[A-Za-z_]"       # letter or underscore
           "[A-Za-z0-9_]*"   # letter, digit or underscore
          )

Note that this feature is defined at the syntactical level, but implemented at compile time. The “+” operator must be used to concatenate string expressions at run time. Also note that literal concatenation can use different quoting styles for each component (even mixing raw strings and triple quoted strings).

2.4.3. Littéraux numériques

Il existe trois types de littéraux numériques : les entiers, les nombres à virgule flottante et les nombres imaginaires. Il n’y a pas de littéraux complexes (les nombres complexes peuvent être construits en ajoutant un nombre réel et un nombre imaginaire).

Notez que les littéraux numériques ne comportent pas de signe ; une phrase telle que -1 est en fait une expression composée de l’opérateur unitaire - et du littéral 1.

2.4.4. Entiers littéraux

Les entiers littéraux sont décrits par les définitions lexicales suivantes :

integer        ::=  decimalinteger | octinteger | hexinteger | bininteger
decimalinteger ::=  nonzerodigit digit* | "0"+
nonzerodigit   ::=  "1"..."9"
digit          ::=  "0"..."9"
octinteger     ::=  "0" ("o" | "O") octdigit+
hexinteger     ::=  "0" ("x" | "X") hexdigit+
bininteger     ::=  "0" ("b" | "B") bindigit+
octdigit       ::=  "0"..."7"
hexdigit       ::=  digit | "a"..."f" | "A"..."F"
bindigit       ::=  "0" | "1"

Il n’y a pas de limite pour la longueur des entiers littéraux, sauf celle relative à la capacité mémoire.

Notez que placer des zéros en tête de nombre pour un nombre décimal différent de zéro n’est pas autorisé. Cela permet d’éviter l’ambigüité avec les littéraux en base octale selon le style C que Python utilisait avant la version 3.0.

Quelques exemples d’entiers littéraux :

7     2147483647                        0o177    0b100110111
3     79228162514264337593543950336     0o377    0xdeadbeef

2.4.5. Nombres à virgule flottante littéraux

Les nombres à virgule flottante littéraux sont décrits par les définitions lexicales suivantes :

floatnumber   ::=  pointfloat | exponentfloat
pointfloat    ::=  [intpart] fraction | intpart "."
exponentfloat ::=  (intpart | pointfloat) exponent
intpart       ::=  digit+
fraction      ::=  "." digit+
exponent      ::=  ("e" | "E") ["+" | "-"] digit+

Note that the integer and exponent parts are always interpreted using radix 10. For example, 077e010 is legal, and denotes the same number as 77e10. The allowed range of floating point literals is implementation-dependent. Some examples of floating point literals:

3.14    10.    .001    1e100    3.14e-10    0e0

Note that numeric literals do not include a sign; a phrase like -1 is actually an expression composed of the unary operator - and the literal 1.

2.4.6. Imaginaires littéraux

Les nombres imaginaires sont décrits par les définitions lexicales suivantes :

imagnumber ::=  (floatnumber | intpart) ("j" | "J")

Un littéral imaginaire produit un nombre complexe dont la partie réelle est 0.0. Les nombres complexes sont représentés comme une paire de nombres à virgule flottante et possèdent les mêmes restrictions concernant les plages autorisées. Pour créer un nombre complexe dont la partie réelle est non nulle, ajoutez un nombre à virgule flottante à votre littéral imaginaire. Par exemple (3+4j). Voici d’autres exemples de littéraux imaginaires :

3.14j   10.j    10j     .001j   1e100j  3.14e-10j

2.5. Opérateurs

Les lexèmes suivants sont des opérateurs :

+       -       *       **      /       //      %      @
<<      >>      &       |       ^       ~
<       >       <=      >=      ==      !=

2.6. Délimiteurs

Les lexèmes suivants servent de délimiteurs dans la grammaire :

(       )       [       ]       {       }
,       :       .       ;       @       =       ->
+=      -=      *=      /=      //=     %=      @=
&=      |=      ^=      >>=     <<=     **=

Le point peut aussi apparaître dans les littéraux de nombres à virgule flottante et imaginaires. Une suite de trois points possède une signification spéciale : c’est une ellipse littérale. La deuxième partie de la liste, les opérateurs d’assignation augmentés, servent de délimiteurs pour l’analyseur lexical mais sont aussi des opérateurs.

Les caractères ASCII suivants ont une signification spéciale en tant que partie d’autres lexèmes ou ont une signification particulière pour l’analyseur lexical :

'       "       #       \

Les caractères ASCII suivants ne sont pas utilisés en Python. S’ils apparaissent en dehors de chaines littérales ou de commentaires, ils produisent une erreur :

$       ?       `

Notes

[1]http://www.unicode.org/Public/8.0.0/ucd/NameAliases.txt