如何建立语料库

北京BCC汉语语料库 http://bcc.blcu.edu.cn/
双语语料库:MyMemory https://mymemory.translated.net/



20个中文语料数据集

含数学考试、公务员考题、医患对话等
https://blog.csdn.net/OpenDataLab/article/details/130208401
1000个对话上下文
https://blog.csdn.net/Thanours/article/details/118368742



  • CrossWOZ是第一个面向任务的大型中文跨域Wizard-of-Oz向导数据集。它包含 5 个领域的 6K 对话会话和 102K 话语,包括酒店、餐厅、景点、地铁和出租车。此外,语料库包含丰富的对话状态注释和用户和系统双方的对话行为。
    https://opendatalab.org.cn/CrossWOZ