J'ai une chaîne de texte arbitrairement grande de l'utilisateur qui doit être divisée en blocs de 10k (valeur potentiellement ajustable) et envoyée à un autre système pour traitement.Algorithme de segmentation de chaîne avec contexte de langage naturel
- Chunks ne peut pas être plus de 10k (ou toute autre valeur arbitraire)
- Le texte doit être rompu avec le contexte du langage naturel à l'esprit
- divisés sur la ponctuation, si possible
- divisée sur les espaces si aucune Ponction eXISTE
- casser un mot en dernier recours
J'essaie de ne pas réinventer la roue avec ceci, aucune suggestion avant de rouler ceci à partir de zéro?
Utilisation de C#.
+1 J'ai fini par mettre en place quelque chose de similaire. Merci pour l'exemple de code! –