J'ai un fichier csv où la colonne la plus à gauche contient un champ ID. Y a-t-il un moyen astucieux que je puisse utiliser n'importe quel programme utilitaire comme sed pour trouver n'importe quel ID utilisé plus d'une fois?Utiliser les utilitaires shell pour l'équivalent d'un groupe SQL par un fichier CSV
2
A
Répondre
5
Si vous voulez simplement les ID, vous pouvez essayer
cut -d "," -f $NUM | sort -n | uniq -d
où $NUM
est le numéro du champ contenant l'ID. La commande cut
va extraire une liste d'identifiants, et la commande uniq
vous montrera seulement ceux qui sont dupliqués.
Notez que vous devez 'trier' les éléments avant de les passer à 'uniq'; 'uniq' ne compare que les lignes adjacentes. –
Oh, c'est vrai. Merci @Brian. Réponse mise à jour –
Vous pouvez ajouter '-c' à' uniq' (ou le remplacer par '-d') pour obtenir le nombre de doublons. –