Automatic text summarization of Chinese legal information
A method of automatic text summarization of the legal information provided in Chinese has been developed. The model of the abstract and the procedure of his formation are considered. Two ap-proaches are proposed, namely, to determine the level of importance of sentences, it was suggested to proceed...
Saved in:
| Date: | 2018 |
|---|---|
| Main Authors: | , , , , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут проблем реєстрації інформації НАН України
2018
|
| Subjects: | |
| Online Access: | http://drsp.ipri.kiev.ua/article/view/158214 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Data Recording, Storage & Processing |
Institution
Data Recording, Storage & Processing| id |
drspiprikievua-article-158214 |
|---|---|
| record_format |
ojs |
| institution |
Data Recording, Storage & Processing |
| baseUrl_str |
|
| datestamp_date |
2019-12-27T01:49:46Z |
| collection |
OJS |
| language |
Russian |
| topic |
automatic text summarization legal information chinese language cosine measure Jensen-Shannon divergence |
| spellingShingle |
automatic text summarization legal information chinese language cosine measure Jensen-Shannon divergence Lande, Dmytro Zijiang, Yang Shiwei, Zhu Jianping, Guo Moji, Wei Automatic text summarization of Chinese legal information |
| topic_facet |
automatic text summarization legal information chinese language cosine measure Jensen-Shannon divergence автоматическое реферирование правовая информация китайский язык косинусная мера мера Дженсена-Шеннона автоматичне реферування правова інформація китайська мова косинусна міра відстань Дженсена-Шеннона |
| format |
Article |
| author |
Lande, Dmytro Zijiang, Yang Shiwei, Zhu Jianping, Guo Moji, Wei |
| author_facet |
Lande, Dmytro Zijiang, Yang Shiwei, Zhu Jianping, Guo Moji, Wei |
| author_sort |
Lande, Dmytro |
| title |
Automatic text summarization of Chinese legal information |
| title_short |
Automatic text summarization of Chinese legal information |
| title_full |
Automatic text summarization of Chinese legal information |
| title_fullStr |
Automatic text summarization of Chinese legal information |
| title_full_unstemmed |
Automatic text summarization of Chinese legal information |
| title_sort |
automatic text summarization of chinese legal information |
| title_alt |
Автоматическое реферирование китайской правовой информации Автоматичне реферування китайської правової інформації |
| description |
A method of automatic text summarization of the legal information provided in Chinese has been developed. The model of the abstract and the procedure of his formation are considered. Two ap-proaches are proposed, namely, to determine the level of importance of sentences, it was suggested to proceed to determine the weight values of separate hieroglyphs, rather than words in the text of documents and abstracts. Also consideration of model of documents as networks of sentences for detection of the most important sentences on parameters of this network has been offered. A new hybrid method of automatic text summarization, covering statistical and marker methods, as well as taking into account the location of sentences in the text of the document is introduced. The offered model of the abstract reflects information need of customers during the work with legal information.The approach to determination of weight values of separate hieroglyphs, but not segmented words in the text of documents and abstracts is realized. This technique avoids the cost-effective procedure of the words segmentation needed for other meaningful methods of Chinese language processing.When summarizing the new idea of determination of weight values of sentences on the basis of weights of separate hieroglyphs, but not words as it is standard was realized. Therefore the quality of summarizing is checked not only proceeding from accounting of scales of separate hieroglyphs, but also taking into account scales of the whole words included in the documents and abstracts to be convinced that the offered approach is satisfactory also by criteria of traditional systems of summarizing.Application of two estimates of quality of the paper without participation of experts — a cosine measure and Jensen-Shannon divergence is shown. Summarizing on the basis of the offered network model of the document was the best by criteria of a cosine measure and Jensen-Shannon's distances for abstracts which volume exceeds 2 sentences. The offered approach taking into account little changes can be used for texts of any subject, in particular, of scientific and technical and news information. |
| publisher |
Інститут проблем реєстрації інформації НАН України |
| publishDate |
2018 |
| url |
http://drsp.ipri.kiev.ua/article/view/158214 |
| work_keys_str_mv |
AT landedmytro automatictextsummarizationofchineselegalinformation AT zijiangyang automatictextsummarizationofchineselegalinformation AT shiweizhu automatictextsummarizationofchineselegalinformation AT jianpingguo automatictextsummarizationofchineselegalinformation AT mojiwei automatictextsummarizationofchineselegalinformation AT landedmytro avtomatičeskoereferirovaniekitajskojpravovojinformacii AT zijiangyang avtomatičeskoereferirovaniekitajskojpravovojinformacii AT shiweizhu avtomatičeskoereferirovaniekitajskojpravovojinformacii AT jianpingguo avtomatičeskoereferirovaniekitajskojpravovojinformacii AT mojiwei avtomatičeskoereferirovaniekitajskojpravovojinformacii AT landedmytro avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí AT zijiangyang avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí AT shiweizhu avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí AT jianpingguo avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí AT mojiwei avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí |
| first_indexed |
2025-07-17T10:57:12Z |
| last_indexed |
2025-07-17T10:57:12Z |
| _version_ |
1850411281235836928 |
| spelling |
drspiprikievua-article-1582142019-12-27T01:49:46Z Automatic text summarization of Chinese legal information Автоматическое реферирование китайской правовой информации Автоматичне реферування китайської правової інформації Lande, Dmytro Zijiang, Yang Shiwei, Zhu Jianping, Guo Moji, Wei automatic text summarization legal information chinese language cosine measure Jensen-Shannon divergence автоматическое реферирование правовая информация китайский язык косинусная мера мера Дженсена-Шеннона автоматичне реферування правова інформація китайська мова косинусна міра відстань Дженсена-Шеннона A method of automatic text summarization of the legal information provided in Chinese has been developed. The model of the abstract and the procedure of his formation are considered. Two ap-proaches are proposed, namely, to determine the level of importance of sentences, it was suggested to proceed to determine the weight values of separate hieroglyphs, rather than words in the text of documents and abstracts. Also consideration of model of documents as networks of sentences for detection of the most important sentences on parameters of this network has been offered. A new hybrid method of automatic text summarization, covering statistical and marker methods, as well as taking into account the location of sentences in the text of the document is introduced. The offered model of the abstract reflects information need of customers during the work with legal information.The approach to determination of weight values of separate hieroglyphs, but not segmented words in the text of documents and abstracts is realized. This technique avoids the cost-effective procedure of the words segmentation needed for other meaningful methods of Chinese language processing.When summarizing the new idea of determination of weight values of sentences on the basis of weights of separate hieroglyphs, but not words as it is standard was realized. Therefore the quality of summarizing is checked not only proceeding from accounting of scales of separate hieroglyphs, but also taking into account scales of the whole words included in the documents and abstracts to be convinced that the offered approach is satisfactory also by criteria of traditional systems of summarizing.Application of two estimates of quality of the paper without participation of experts — a cosine measure and Jensen-Shannon divergence is shown. Summarizing on the basis of the offered network model of the document was the best by criteria of a cosine measure and Jensen-Shannon's distances for abstracts which volume exceeds 2 sentences. The offered approach taking into account little changes can be used for texts of any subject, in particular, of scientific and technical and news information. Работа посвящена методу автоматического реферирования правовой информации, представленной на китайском языке. Рассмотрена модель реферата и процедура его формирования. Предложено два подхода, а именно: для определения уровня важности предложений - перейти к определению весовых значений отдельных иероглифов, а не слов в тексте документов и рефератов. Также предложено рассмотрение модели документов как сети предложений для выявления наиболее важных предложений по параметрам этой сети. Реализованы и испытаны различные методы автоматического реферирования. Показано применение двух оценок качества реферата без участия экспертов - косинусной меры и дивергениции Дженсена-Шеннона (Jensen-Shannon). Реферирование на основе предложенной сетевой модели документа оказалось лучшим по критериям косинусной меры и расстояния Дженсена-Шеннона для рефератов, объем которых превышает 2 предложения. Предложенный подход с учетом небольших изменений может использоваться для текстов произвольной тематики, в частности, научно-технической и новостной информации. Роботу присвячено методу автоматичного реферування правової інформації, що представ-лено китайською мовою. Розглянуто модель реферату та процедуру його формування. Запропоно-вано два підходи, а саме, для визначення рівня важливості речень — перейти до визначення ваго-вих значень окремих ієрогліфів, а не слів у тексті документів і рефератів. Також запропоновано розгляд моделі документів як мережі із речень для виявлення найбільш важливих речень за пара-метрами цієї мережі. Реалізовано та випробувано різні методи автоматичного реферування. Пока-зано застосування двох оцінок якості реферату без участі експертів — косинусної міри і відстані Дженсена-Шеннона (Jensen-Shannon). Реферування на основі запропонованої мережевої моделі документа виявилося кращим за критеріями косинусної міри та відстані Дженсена-Шеннона для рефератів, обсяг яких перевищує 2 речення. Запропонований підхід з урахуванням невеликих змін може використовуватися для текстів довільної тематики, зокрема, науково-технічної та новинної інформації. Інститут проблем реєстрації інформації НАН України 2018-09-18 Article Article application/pdf http://drsp.ipri.kiev.ua/article/view/158214 10.35681/1560-9189.2018.20.3.158214 Data Recording, Storage & Processing; Vol. 20 No. 3 (2018); 67-82 Регистрация, хранение и обработка данных; Том 20 № 3 (2018); 67-82 Реєстрація, зберігання і обробка даних; Том 20 № 3 (2018); 67-82 1560-9189 ru http://drsp.ipri.kiev.ua/article/view/158214/157618 Авторське право (c) 2021 Реєстрація, зберігання і обробка даних |