El objetivo de esta presentación es dar a conocer PaCheS, un corpus paralelo en línea chino-español y sus funcionalidades actuales (www.corpuspaches.eu). Este corpus forma parte del proyecto PaCorES, una colección de corpus paralelos bidireccionales con el español como lengua central.
En primer lugar, se presentará la arquitectura general de la colección PaCorES, junto con los principios que la sustentan: calidad textual, multifuncionalidad, reusabilidad, accesibilidad, facilidad de uso y retroalimentación de los usuarios.
A continuación, se abordarán aspectos clave de la compilación del corpus PaCheS, incluyendo su composición y el preprocesamiento de los datos. Se prestará especial atención a la segmentación, al alineado automático de los textos, detallando la selección de la herramienta utilizada, estadísticas básicas del proceso y los principales fenómenos observados en la revisión de la alineación.
Por último, se describirán las opciones de búsqueda disponibles en la interfaz web del corpus, las opciones de visualización de resultados y las mejoras implementadas para optimizar y ampliar las funcionalidades del corpus. Finalmente, se esboza el desarrollo futuro del corpus.
Doval, I., & Sánchez Nieto, M. T. (Eds.). (2019). Parallel corpora in focus: An account of current achievements and challenges. In Parallel corpora for contrastive and translation studies (pp. 1-18). De Gruyter. https://doi.org/10.1515/9783110643574-001
Liu, L., & Zhu, M. (2023). Bertalign: Improved word embedding-based sentence alignment for Chinese–English parallel corpora of literary texts. Digital Scholarship in the Humanities, 38(2), 621-634.
Lefer, M. A. (2021). Parallel corpora. In A practical handbook of corpus linguistics (pp. 257-282). Cham: Springer International Publishing.