1.3.A. Le format CSV / TSV GarganText
===
Nous parlons et écrivons de manière indifférente CSV ou TSV. CSV indique que les colonnes sont séparées par des virgules (coma separated values) alors que TSV indique (tab-separated values). Dans le contexte de GarganText qui manipule des textes, les virgules ne sont pas considérées comme séparant les colonnes. Si votre fichier se termine en .csv mais qu'il est bien séparé par des tab ce n'est pas un problème.
:::success
[Télécharger un exemple de format TSV valide](http://nextcloud.iscpif.fr/index.php/s/b8Dc92jYYpLFRKj).
:::

:warning: Attention, le format TSV paraît simple mais il y a en fait plusieurs variantes en fonction du choix des séparateurs, délimiteurs, encodages des caractères, etc. Il y a donc quelques précautions d'usage à suivre pour que l'import fonctionne. GarganText utilise précisément du TSV : __les séparateurs sont des tabulations.__ __L'encodage doit être UTF8__.
Voici comment doit apparaître un fichier TSV GarganText vu dans un éditeur de texte (ici la première ligne d'entête + deux documents) :
```
Publication Day Publication Month Publication Year Authors Title Abstract Source
6 12 2022 Authors1 Trust in the algorithmic implementation of law 0 A first area where transparency and trust in the digital public sphere may be lacking is the domain of digital law and justice. Digital law, encoded in software, is not easily and, sometimes, not directly legible. Besides, many legal experts are not trained in computer science and software development, even though digital law is now a prominent feature of legal systems in many areas. This situation raises a number of key issues and challenges that future research needs to address. This covers the definition of approaches to (i) combine old and new forms of legislation, (ii) make legislation formalised in software readily intelligible to legal experts and the general public, (iii) verify the correctness of legal software, and (iv) ensure that digital procedures and interactions that are mediated by software are transparent and fair to all parties. To address these issues some practical steps can be taken, for example to ensure collective participation in software development. But pursuing such participation means exploring a range of further questions. What kind of collective involvement or collaborative processes will be needed? Should these be internal or, more broadly, external to a given organization? How does the level of software development (scope and size of the project) influence the possible achievement of useful collective activity? Further important issues arise in connection with key European principles and specific information technologies. Keywords: digital law; legal compliance of algorithms; algorithmic regulation road map
29 11 2022 Authors2 Gender, emerging country and digital media The dimension of media pluralism and diversity is of major importance in a context where the border between the "digital” world and the "physical” world continues to blur. Despite different studies about the importance of gender diversity in tech, women are still under-represented and often discriminated against in professions of the digital sector and even in the data itself. This observation cannot be made independently of the technologies underlying digital media, particularly Artificial Intelligence (AI). In a booming digital world, the challenge is to combat social and cultural stereotypes that have prevailed in the “physical” world. Even more, it would be appropriate to consider digital media as a lever to raise important issues related to the struggle for gender equality and the success of the #MeToo movement is an outstanding example. These issues may have a particular chime in emerging countries. road map
29 11 2022 Authors3 Digital technology, a lever of egalitarian digital media While Information and Communications Technology (ICT) are recognized as having the potential to promote gender equality and women’s empowerment, a digital gender divide can be observed. The explanation is twofold: First, humans “naturally” reproduce, in the “digital” world, the gender relations characterising the “physical” world. Secondly, AI algorithms themselves can encode gender stereotypes (but also ethnic and cultural ones) since AI is what humans design it to be, learn, and do. It systematically reflects the biases of those who build it (mostly men), reinforcing stereotypes based on those biases. Is gender inequality in the “digital” world a simple transposition of that of the “physical” world? How to break this form of gender bias continuum that propagates from the “physical” world to the “digital” world? What are the main causes of algorithmic bias? Can algorithms contribute to creating a more egalitarian digital media and society by combating gender stereotypes? Is AI a boon or bane for digital media? How to ensure an equitable future for AI ? road map
```
Le fichier TSV, souvent visualisé sous forme d'une feuille de calcul, doit comporter 7 colonnes principales (peu importe l’ordre) :
* __Title__ : la colonne pour le titre du document
* __Abstract__ : la colonne dédiée au contenu textuel à traiter (par exemple pour le champ résumé d’un article scientifique). L'appellation "abstract" est uniquement due au fait qu'il y aura plus tard une autre colonne pour pouvoir distinguer abstract et full text.
* __Authors__ : la colonne pour décrire les auteurs. S'il y a plusieurs auteurs, les séparer avec un ; dans cette colonne
* __Source__ : la colonne pour définir la source (pour d’où vient l’information)
* __Publication Year__ : la colonne pour l’année du document (mettre l’année en cours si pas d’infos)
* __Publication Month__ la colonne pour décrire le mois de la publication (si pas indiqué, mettre le chiffre ‘1’)
* __Publication Day__ : la colonne pour décrire le jour de la publication (si pas indiqué, mettre le chiffre ‘1’)
:::warning
:warning: __Bien vérifier que :__
1. le fichier est bien en UTF8
2. il n'y a pas de signe tabulation en dehors des séparateurs de colonnes (pensez à vérifier qu'il n'y a pas de tabulation dans les titres ou abstract par exemple qui casseraient l'import.). S'il y en a, il suffit de les retirer en remplaçant dans tout le tableau le caractère "\t" par un espace et en sélectionnant 'Expressions régulières" dans les options.

3. Toutes les colonnes sont renseignées, même si c'est avec des valeurs telles que
* pour les champs texte : "n/a" ou "null"
* pour les dates : "1"
4. Attention, des éditeurs de textes comme Excell peuvent changer certains encodages sans vous le dire. Préférer Libre Office ou Open Office qui permet plus facilement de spécifier l'envodage.
:::
À l'avenir, l'import sera plus flexible.