Sp�cifications du filtre de Linux Trace Toolkit Viewer

Sp�cifications du filtre de Linux Trace Toolkit Viewer Mathieu Desnoyers 26/01/2005 1.00.00 Ce document d�crit les sp�cifications requises pour la fonctionnalit� de filtrage pour l'application Linux Trace Toolkit Viewer. Linux Trace Toolkit Viewer sp�cification filtre specification filter Introduction Le filtre de Linux Trace Toolkit Viewer est une fonctionnalit� n�cessaire pour rendre l'outil pleinement utilisable. Des cas typiques de filtrage ont d�j� �t� identifi�s : filtrer par CPU ou par ID d'�v�nement. Cependant, un utilisateur plus avanc� peut vouloir filtrer selon n'importe quel champs d'information disponible lors de la lecture d'un �v�nement. L'approche qui sera suivie, afin d'assurer l'applicabilit� du filtrage aux diff�rents types de traces, sera de ne pas limiter les champs selon lesquels le filtrage pourra �tre fait. Comme le filtrage se fait � la lecture de chaque �v�nement, il peut rapidement devenir un goulot d'�tranglement important. Les performances doivent donc �tre un souci de taille lors de la r�alisation de cette fonctionnalit�. C'est pourquoi l'architecture propos�e se base sur une compilation des r�gles de filtrage lors de leur d�finition afin de g�n�rer une structure de donn�es optimale pour le parcours de la trace. Ce document explique les diff�rents d�fis � surmonter dans les diff�rents sous-modules du filtre, soit : la partie "core" du filtre, qui sera int�gr�e, comme son nom l'indique, au coeur de l'application ainsi que les parties modulaires textes et graphiques. � la fin du document, des optimisations �ventuelles sont �nonc�es, sans plus. Elles pourront �tre utiles dans le cas o� les performances s'av�reraient probl�matiques. Ce document est le fruit d'un �change entre Michel Dagenais et moi-m�me, Mathieu Desnoyers. Certains passages sont laiss�s sous leur forme originale. Design Core Application des r�gles de filtrage aux �v�nements. Les r�gles de filtrage pourraient �tre repr�sent�es par un arbre. Cette section du filtrage est assez int�gr�e au reste de l'application pour m�riter d'�tre au coeur m�me de lttv (pas dans un module s�par�). Les feuilles de l'arbre sont des 3-tuples (champs, relation, valeur), alors que les noeuds interm�diaires sont des relations logiques (and, or, xor, not). Le and, le or et le xor sont limit�s � deux enfants, alors que le not est limit� � un seul enfant. Les champs du 3-tuple devraient respecter une arborescence qui repr�sente l'organisation des donn�es dans les �v�nements. Celles-ci sont, lors de la lecture de la trace, accessibles via les structures : LttEvent (plus les champs sp�cifiques � l'�v�nement) LttvTracefile LttvTrace LttvTraceset LttvState On pourrait donc, au niveau de la description du champs, repr�senter celui-ci par une cha�ne de caract�res imbriquable dont les niveaux sont s�par�s par le ".". Voici la repr�sentation des niveaux d'imbrication : * |->event (pour acc�der aux champs sous LttEvent) | |->name (string) | |->category (string) | |->time (LttTime) | |->tsc (LttCycleCount) | |->fields | |->"event name" | |->"field name" | |->"sub-field name" | |->... | |->"leaf-field name" (field type) | |->tracefile | |->name (string) |->trace | |->name (string) |->state |->pid (guint) |->ppid (guint) |->creation_time (LttTime) |->insertion_time (LttTime) |->process_name (string) |->execution_mode (user_mode, syscall, trap, irq, unknown) |->execution_submode (none, unknown) |->process_status (wait_fork,wait_cpu,exit,zombie,wait,run,unnamed) |->cpu (guint) L'objet contenant l'arbre des r�gles de filtrage ainsi que la cache du filtre, qu'on pourrait appeler "LttvFilter", serait associ� � une trace, non pas � un trace set, pour des raisons de performance. En effet, le m�me nom d'�v�nement peut tr�s bien �tre associ� � un ID diff�rent d'une trace � l'autre. Comme on ne souhaite pas faire la translation nom->id (qui est co�teuse) � chaque utilisation du filtre, on le ferait lors de sa construction. Ceci implique de garder un objet LttvFilter par trace. Rien n'emp�che cependant d'avoir une fa�on de cr�er, au niveau usager, des filtres pour toutes les traces d'un traceset, mais ceux-ci seront associ�s � chaque trace du trace set. Michel Dagenais : Je m`inqui�te beaucoup pour la performance. Il faut pouvoir pr�compiler ces expressions en offset (ltt_field) et avoir un esp�ce d`index pour ne pas passer s�quentiellement � travers toutes les r�gles et pour chaque r�gle interpr�ter les noms de champs � chaque �v�nement trait�!! Mathieu Desnoyers : C'est ce que j'avais en t�te : fixer les positions des champs au moment de la cr�ation de la r�gle de filtrage, quitte � la recalculer si jamais la trace change en cours de route (mais �a ne devrait pas arriver, puisque les paires (facility, event id) sont uniques au cours d'une trace). Cependant, de la mani�re dont je vois �a, on aura pas le choix de se garder un arbre repr�sentant l'expression logique et de le parcourir s�quentiellement pour chaque �v�nement. On peut �videmment �viter de balayer certaines branches en se basant sur les relations and, or, xor lors du parcours. Donc, je vois �a, dans le pire cas, comme un parcours infixe de l'arbre repr�sentant les r�gles. Chaque feuille serait une r�gle repr�sent�e par un 3-tuple (position, (type, relation), valeur), o� chaque paire de (type,relation) devrait �tre d�fini pour chaque type (possiblement incorrect, comme la relation < sur un type string). Lors de la compilation, on passerait du 3-tuple (champs, relation, valeur) � un 3-tuple (position, (type, relation), valeur). � noter : un simple offset n'est en r�alit� pas assez pour repr�senter la position, puisque toutes les donn�es ne r�sident pas dans une seule structure. Certaines sont dans le contexte (TracesetContext), d'autres dans la structure de l'�v�nement. Il faut donc d�crire la position, en r�alit�, comme une paire (structure, offset), o� nous limitons structure aux noms de structure connus (qui peuvent �tre encod�s sur la forme de GQuarks) : {LTTV_TRACE, LTTV_TRACEFILE, LTTV_TRACE_STATE, LTT_EVENT}. Lors de la compilation, on a, en entr�e, le tuple : (champs, relation, valeur) o� champs est un tuple : (structure, offset, type) On produit, en sortie, (toujours dans la m�me structure en arbre pour les expressions logiques), les 3-tuples suivants (aux feuilles) : (position, fonction, valeur) o� : position = (structure, offset) fonction = (type, relation) Il me reste une question : que fait-on lors qu'un facility est recharg� en cours de tra�age ? Les �v�nements vont-ils changer d'id ? Michel Dagenais : Non, c`est un nouveau facility avec le m�me nom mais un fingerprint diff�rent qui s`ajoute puisqu`il est possible que des modules utilisent l`ancienne version alors que d`autres utilisent la nouvelle simultan�ment. Il est possible que les r�gles ne sp�cifient que le nom de la facilit� auquel cas elles pourraient s`appliquer � toutes les facilit�s du m�me nom et demanderaient d`avoir une pr�compilation diff�rente pour chaque facilit�. Mathieu Desnoyers : J'en conclue que le 2-tuple (facility, event id) est unique pour la trace, c'est �a ? Michel Dagenais : > Oui. Module texte Lecture d'une cha�ne de caract�res form�e d'expressions bool�ennes qui d�crivent le filtre � partir des op�rations de base : and, or, xor, not et de parenth�ses : ( et ). Les entr�es logiques de ce filtre sont compos�es 3-tuples (champs, relation, valeur), o� le champs est le type d'information (i.e. pid) la relation est la limite sur la valeur (i.e. <) la valeur est la valeur qui doit �tre respect�e par le champs selon la relation. Doit �tre du type associ� au champs. � priori, on utilise le type de champs pour savoir sous quel type encoder l'information lue, tout en v�rifiant le contenu de la cha�ne lue pour des d�bordements (overflow) avant encodage vers le type associ�. La lecture de cette expression bool�enne formerait un arbre de r�gles de filtrage, qui serait ensuite utilis� par la partie "core" de filtrage de lttv pour �tre appliqu� aux �v�nements lors de la lecture de trace. Module graphique Une classe filtre graphique serait associ�e � un arbre de r�gles de filtrage. On pourrait le modifier les objets de la classe filtre graphique en invoquant une fen�tre de modification de filtre qui permettrait d'entrer les sp�cifications du filtre � l'aide de champs graphiques de s�lection (drop down list) pour les types d'�l�ments selon lesquels filtrer, et d'un champs d'entr�e de texte libre pour sp�cifier la valeur que ce champs doit prendre. La relation qui doit �tre appliqu�e (<, >, <=, >=, =) doit �tre s�lectionn�e dans un autre drop-down list. En plus de la s�lection graphique, l'entr�e d'une cha�ne de caract�re serait possible pour sp�cifier le filtre selon l'entr�e d�crite ci-haut pour le module texte. Michel Dagenais : Oui, � la rigueur la partie graphique n`est probablement pas tellement plus difficile que celle textuelle. On pourrait commencer avec seulement la partie graphique qui produit directement la repr�sentation en arbre. Mathieu Desnoyers : Comme je pr�vois r�utiliser l'entr�e texte � l'int�rieur de la fen�tre graphique, je crois qu'il est pr�f�rable de commencer par l'entr�e texte. D'ailleurs, l'avantage pour quelqu'un qui commence � contribuer au projet est de ne pas avoir � apprendre l'API de GTK en m�me temps qu'il fait le d�veloppement de son module. Il est un peu trop facile de ne pas assez d�coupler la logique interne de la pr�sentation. Michel Dagenais : Le cas classique est de choisir un CPU ou un type d`�v�nement, auquel cas un menu simple de CPU et type serait beaucoup plus pratique que d`avoir � taper une expression. Mathieu Desnoyers : On pourrait penser � faire un module graphique de cr�ation de filtre de base, pour les fonctionnalit�s les plus utilis�es. Celui-ci pourra �tre �tendu par la suite, si besoin est. L'int�r�t est d'avoir quand-m�me la possibilit�, pour un utilisateur plus avanc�, de sp�cifier toutes les caract�ristiques via l'interface. Dans ce cas, quelqu'un serait tout-�-fait pr�t � faire une expression pour d�crire en d�tail son filtre. C'est quand-m�me quelque chose de plus en plus commun avec la venue des moteurs de recherche. Choix de syntaxe, documentation et messages d'erreur Michel Dagenais : Oui, une partie non n�gligeable est un choix de syntaxe convivial, la documentation et les messages d`erreur... Mathieu Desnoyers : C'est bel et bien ce qui sera per�u par l'utilisateur, de l� l'importance.. Je me demande s'il est mieux d'adopter une syntaxe un peu � la Google ou bien � la C : (, ), and, or, xor, not, field op value o� op peut prendre : <, >, <=, >=, = ou bien � la C (, ), &, |, ^, !, field op value Ou bien on peut faire un alphabet mixte entre les deux, o� les mots and et & seraient �quivalents. Ce serait probablement plus facile de reconna�tre les symboles comme & par contre, et moins limitant sur le traitement du mot identifiant le field. Mais cette question est de moindre importance : tant qu'on se fixe un standard et qu'on le documente, je crois qu'il n'y a pas vraiment de mauvais choix. Pour la documentation, l'ajout d'une section au guide de l'utilisateur (d�j� en docbook) me semble tr�s ad�quat. Pour les messages d'erreur, il faudra entres autres penser � valider les op�ration par rapport � celles permises pour chaque type. Par exemple, un > n'a pas vraiment de sens pour un string. Michel Dagenais : Je tendrais � prendre la syntaxe C. Mathieu Desnoyers : Si on utilise de mani�re stricte la syntaxe C, il faudrait utiliser ceci : &&, ||, ==, (rien pour le xor logique ?) Je me dis que, puisque nous n'avons pas besoin des op�rations "bitwise", nous pourrions utiliser celles-ci. Donc, ce que je propose, est d'utiliser l'alphabet utilis� pour les op�rateurs bitwise du C en tant qu'op�rateurs logiques pour notre parser d'expressions de filtre : &, |, =, ^ Ceci est un d�tail s�mantique, mais je veux juste m'assurer qu'on est d'accord. Optimisation �ventuelles "Cache" de filtre, afin d'optimiser le cas courant. Au niveau de la partie "core" du filtrage, on pourrait faire une hash table index�e par une cl� form�e d'un xor des champs � filtrer. Alors, si un �v�nement poss�de les m�me caract�ristiques de filtrage, on pourrait acc�der � la solution (V/F) en O(1). Le co�t est de calculer la cl� de hashage pour chaque �v�nement. L'avantage appara�t lorsqu'il y a plusieurs crit�res de filtrage � comparer. La remise � z�ro de cette cache devrait �tre faite lorsqu'il y a des modifications au filtre. Michel Dagenais : Les travaux sur l`optimisation de requ�tes dans les bases de donn�es est probablement pertinent pour ce genre de choses. Mathieu Desnoyers : Il faudra que je m'y arr�te. Cependant, ceci constitue une optimisation et n'est donc pas crucial pour le fonctionnement. Michel Dagenais : Sauf si c`est inutilisable sans une telle optimisation :-). Mathieu Desnoyers : N'est-ce pas toi qui m'a d�j� dit, citant Donald Knuth : "Premature optimisation is the root of all evil" ? :) Effectivement, si on s'aper�oit que c'est trop lent, il faudra passer � cette �tape.