Âm Tiết Tiếng Việt #1: Kho dữ liệu của thanh âm
Tổng quan về Âm tiết tiếng Việt và khởi tạo kho dữ liệu mở về âm tiết cho cộng đồng. Tổng hợp tất cả các âm có thể phát âm trong tiếng Việt và đối chiếu với từ điển, xem có bao nhiêu âm có nghĩa.
English version: here.
Sự giàu đẹp của tiếng Việt
Được hình thành ở nơi sơn hải kề cạnh, giữa 2 khối văn hoá hùng cường Ấn Độ và Trung Hoa, trải qua sự chiếm đóng của 3 đế quốc Pháp, Mỹ, Nhật, tiếp thu kiến thức từ khối Liên Xô, trải qua 2 lần thay đổi văn tự, vốn từ vựng tiếng Việt có khả năng biểu đạt được khái niệm, hiện tượng, tâm tư, cảm xúc, tri thức của rộng rãi các dân tộc trên thế giới. Tiếng Việt giàu đẹp là vì lẽ đó.
Sự sinh thành của tiếng Việt vốn là một chủ đề mà các nhà khoa học nội ngoại dày công thu thập, đối chiếu, bàn luận và hệ thống. Không thể bỏ qua quyển An Nam Dịch Ngữ ở thế kỷ 16 đối chiếu 716 từ Hán Việt hay cuốn từ điển Việt-Bồ-Latinh của Alexander de Rhodes hợp thức hoá chữ Quốc ngữ. Không thể bỏ qua công sức André-Georges Haudricourt đã tìm hiểu về các từ nguyên của tiếng Việt, đối chất với công trình của học giả Đông phương Henry Maspero để chứng minh tiếng Việt thuộc nhóm Môn-Khmer của ngữ hệ Nam Á. Không thể bỏ qua giáo sư Nguyễn Tài Cẩn bàn về sự trù phú trong thanh điệu của tiếng Việt, từ những thiên tính của ngữ hệ Nam Á, cụ thể là nhánh Môn-Khmer đến sự tiếp thu thanh điệu của ngữ hệ Thái-Ka-đai. Và cũng không thể bỏ qua giáo sư Trần Trí Dõi đã dày công hệ thống sự trưởng thành của tiếng Việt trong bối cảnh văn hoá và lịch sử qua những thời kỳ đầy biến động.
Ngày nay, từ vựng tiếng Việt được hệ thống lại nhờ công trình từ điển tiếng Việt của cố giáo sư, nhà từ điển học Hoàng Phê. Các kho lưu trữ kỹ thuật số cũng đã mở rộng ra lãnh địa của chữ Nôm, các ngôn ngữ thuộc nhóm Môn-Khmer như từ điển Việt-Mường của Nguyễn Văn Khang chủ biên, ngữ vựng Katu của Nancy Costello, từ điển Cơ-ho-Pháp của Dournes Jacques xuất bản ở Sài Gòn. Rất nhiều mối liên quan giữa tiếng Việt với cơ ngơi các ngôn ngữ khác, với tiếng Việt những thời kỳ khác, nhưng để thấy rõ thiên tính của tiếng Việt, chúng ta hãy cùng đi sâu vào từng tế bào của nó: âm tiết.
Chiêm nghiệm trong cõi thanh âm
Là một ngôn ngữ đơn âm tiết, mỗi âm trong tiếng Việt đều là một từ, có nghĩa hoặc không, hoặc ta chưa biết nghĩa của nó, hoặc nó đã từng có nghĩa. Và khi mỗi âm tiết ấy vang lên, chúng đều truyền đến tai người một cảm giác, cảm xúc.
Lấy cảm hứng từ thí nghiệm Maluma-Takete được tiến hành bởi Wolfgang Kohler, một trong những người sáng lập trường phái tâm lý học Gestalt, dự án này đối chiếu với bảng âm tiết hiện có để hiểu thêm về hình ảnh có thể hình dung ra ở mỗi âm tiết.
Như cả mấy âm “to”, “lớn”, “bự”, “khủng” đều chỉ một quy mô hơn những gì bản thân cho là đủ, nhưng cảm giác mỗi âm mang lại đều khác nhau. “To” trung tính, có chút kinh ngạc, cảm giác khi nói sẽ kéo dài âm o. “Lớn” có gì đó như cảm giác lo lắng, nhanh chóng, ngỡ ngàng. “Bự” có gì đó không được thoải mái lắm, cảm giác có trọng lượng ở đây. “Khủng” thì lại hé một chút cái sự suy ngẫm của người nói, cảm giác xa cách hơn ba âm kia một chút. Với tôi, đây là phép màu của tiếng Việt; sự trù phú trong thanh điệu, sự bao dung trong vốn từ vựng, và sự giản dị trong âm tiết.
Phân-hợp các âm tiết tiếng Việt
Với bảng hệ thống toàn bộ các vần, mở rộng ra các âm tiết, dự án này tìm hiểu về cảm giác các âm tiết tạo ra, và hướng tới bao gồm cả các âm người Việt có thể đọc nhưng không có trong chính tả tiếng Việt.
Để bắt đầu nghiên cứu về âm tiết tiếng Việt, trước hết chúng tôi cần phải có một bộ dữ liệu hoàn chỉnh về các từ tiếng Việt, coi vậy mà khá là khan hiếm.
Để xây dựng bộ dữ liệu cho dự án này, chúng tôi dùng nguồn dataset mở của nhóm nghiên cứu NLP tiếng Việt underthesea. Từ nguồn dữ liệu này, chúng tôi dùng Python để đối chiếu lại với từ điển của soha.vn và Từ Điển Tiếng Việt (GS Hoàng Phê), lọc ra được bộ từ hoàn chỉnh bao gồm hơn 30,000 từ.
Từ bộ từ tiếng Việt này, chúng tôi lại tiếp tục lọc ra các từ là phiên âm tiếng nước ngoài. Và cuối cùng tách các từ vựng thuần tiếng Việt ra thành một dataset âm, gồm hơn 6,000 âm.
Toàn bộ bộ dữ liệu về từ và âm có thể truy cập và sử dụng tại đây.
Từ bộ từ tiếng Việt này, chúng tôi lại tiếp tục lọc ra các từ là phiên âm tiếng nước ngoài. Và cuối cùng tách các từ vựng thuần tiếng Việt ra thành một dataset âm, gồm hơn 6,000 âm.
Toàn bộ bộ dữ liệu về từ và âm có thể truy cập và sử dụng tại đây.
Âm Tiết Tiếng Việt là bộ 3 bài nghiên cứu khởi đầu trong khuôn khổ Dự Án Tiếng Việt, được tổ chức bởi Lướt Code
Những phần khác của Âm Tiết Tiếng Việt:
Để đọc về toàn bộ Dự Án Tiếng Việt, hãy bấm vào đây.
English version of Vietnamese Syllable trilogy: