Modèle état de l`art

L`innovation technique principale de BERT est l`application de la formation bidirectionnelle de transformer, un modèle d`attention populaire, à la modélisation linguistique. Cela contraste avec les efforts antérieurs qui ont examiné une séquence de texte soit de gauche à droite ou combiné de gauche à droite et de droite à gauche de formation. Les résultats du document montrent qu`un modèle linguistique qui est formé de façon bidirectionnelle peut avoir un sens plus profond du contexte linguistique et du flux que les modèles linguistiques à direction unique. Dans le document, les chercheurs détaillent une nouvelle technique nommée LM masqué (MLM) qui permet une formation bidirectionnelle dans des modèles dans lesquels il était auparavant impossible. BERT utilise transformer, un mécanisme d`attention qui apprend les relations contextuelles entre les mots (ou sous-mots) dans un texte. Sous sa forme vanillée, transformer comprend deux mécanismes distincts: un encodeur qui lit l`entrée de texte et un décodeur qui produit une prédiction pour la tâche. Étant donné que le but de BERT est de générer un modèle linguistique, seul le mécanisme de codeur est nécessaire. Le fonctionnement détaillé de transformer est décrit dans un document par Google. État de l`art par rapport à l`état de l`art de contrôle: puisque l`état de l`art est une phrase d`adjectif de césure, comme la course de l`usine et over-the-Top, vous pouvez vous souvenir de ces phrases semblables comme un rappel que l`état de l`art, aussi, est une phrase d`adjectifs de césure. Aucune ablation n`a été faite sur les ratios de cette approche, et elle a peut-être mieux fonctionné avec des ratios différents. En outre, les performances du modèle n`ont pas été testées en masquant simplement 100% des jetons sélectionnés. L`état de la technique est une expression nominale.

En anglais, les noms peuvent devenir des adjectifs à travers le processus de césure. Ainsi, l`état de l`art de la césure est une phrase adjectif. L`état de l`art (parfois tranchant) fait référence au niveau de développement général le plus élevé, à partir d`un dispositif, d`une technique ou d`un champ scientifique atteint à un moment donné. Il fait également référence à un tel niveau de développement atteint à un moment donné en raison des méthodologies communes employées à l`époque. Dans le processus de formation BERT, le modèle reçoit des paires de phrases comme entrée et apprend à prédire si la deuxième phrase de la paire est la phrase suivante dans le document d`origine. Pendant la formation, 50% des entrées sont une paire dans laquelle la deuxième phrase est la phrase suivante dans le document original, tandis que dans l`autre 50% une phrase aléatoire du corpus est choisie comme deuxième phrase. L`hypothèse est que la phrase aléatoire sera déconnecté de la première phrase. BERT peut être utilisé pour une grande variété de tâches linguistiques, tout en ajoutant une petite couche au modèle de base: BERT est sans aucun doute une percée dans l`utilisation de machine learning pour le traitement du langage naturel.