Automatic text summarization of Chinese legal information

A method of automatic text summarization of the legal information provided in Chinese has been developed. The model of the abstract and the procedure of his formation are considered. Two ap-proaches are proposed, namely, to determine the level of importance of sentences, it was suggested to proceed...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2018
Автори: Lande, Dmytro, Zijiang, Yang, Shiwei, Zhu, Jianping, Guo, Moji, Wei
Формат: Стаття
Мова:Russian
Опубліковано: Інститут проблем реєстрації інформації НАН України 2018
Теми:
Онлайн доступ:http://drsp.ipri.kiev.ua/article/view/158214
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Data Recording, Storage & Processing

Репозитарії

Data Recording, Storage & Processing
id drspiprikievua-article-158214
record_format ojs
institution Data Recording, Storage & Processing
baseUrl_str
datestamp_date 2019-12-27T01:49:46Z
collection OJS
language Russian
topic automatic text summarization
legal information
chinese language
cosine measure
Jensen-Shannon divergence
spellingShingle automatic text summarization
legal information
chinese language
cosine measure
Jensen-Shannon divergence
Lande, Dmytro
Zijiang, Yang
Shiwei, Zhu
Jianping, Guo
Moji, Wei
Automatic text summarization of Chinese legal information
topic_facet automatic text summarization
legal information
chinese language
cosine measure
Jensen-Shannon divergence
автоматическое реферирование
правовая информация
китайский язык
косинусная мера
мера Дженсена-Шеннона
автоматичне реферування
правова інформація
китайська мова
косинусна міра
відстань Дженсена-Шеннона
format Article
author Lande, Dmytro
Zijiang, Yang
Shiwei, Zhu
Jianping, Guo
Moji, Wei
author_facet Lande, Dmytro
Zijiang, Yang
Shiwei, Zhu
Jianping, Guo
Moji, Wei
author_sort Lande, Dmytro
title Automatic text summarization of Chinese legal information
title_short Automatic text summarization of Chinese legal information
title_full Automatic text summarization of Chinese legal information
title_fullStr Automatic text summarization of Chinese legal information
title_full_unstemmed Automatic text summarization of Chinese legal information
title_sort automatic text summarization of chinese legal information
title_alt Автоматическое реферирование китайской правовой информации
Автоматичне реферування китайської правової інформації
description A method of automatic text summarization of the legal information provided in Chinese has been developed. The model of the abstract and the procedure of his formation are considered. Two ap-proaches are proposed, namely, to determine the level of importance of sentences, it was suggested to proceed to determine the weight values of separate hieroglyphs, rather than words in the text of documents and abstracts. Also consideration of model of documents as networks of sentences for detection of the most important sentences on parameters of this network has been offered. A new hybrid method of automatic text summarization, covering statistical and marker methods, as well as taking into account the location of sentences in the text of the document is introduced. The offered model of the abstract reflects information need of customers during the work with legal information.The approach to determination of weight values of separate hieroglyphs, but not segmented words in the text of documents and abstracts is realized. This technique avoids the cost-effective procedure of the words segmentation needed for other meaningful methods of Chinese language processing.When summarizing the new idea of determination of weight values of sentences on the basis of weights of separate hieroglyphs, but not words as it is standard was realized. Therefore the quality of summarizing is checked not only proceeding from accounting of scales of separate hieroglyphs, but also taking into account scales of the whole words included in the documents and abstracts to be convinced that the offered approach is satisfactory also by criteria of traditional systems of summarizing.Application of two estimates of quality of the paper without participation of experts — a cosine measure and Jensen-Shannon divergence is shown. Summarizing on the basis of the offered network model of the document was the best by criteria of a cosine measure and Jensen-Shannon's distances for abstracts which volume exceeds 2 sentences. The offered approach taking into account little changes can be used for texts of any subject, in particular, of scientific and technical and news information.
publisher Інститут проблем реєстрації інформації НАН України
publishDate 2018
url http://drsp.ipri.kiev.ua/article/view/158214
work_keys_str_mv AT landedmytro automatictextsummarizationofchineselegalinformation
AT zijiangyang automatictextsummarizationofchineselegalinformation
AT shiweizhu automatictextsummarizationofchineselegalinformation
AT jianpingguo automatictextsummarizationofchineselegalinformation
AT mojiwei automatictextsummarizationofchineselegalinformation
AT landedmytro avtomatičeskoereferirovaniekitajskojpravovojinformacii
AT zijiangyang avtomatičeskoereferirovaniekitajskojpravovojinformacii
AT shiweizhu avtomatičeskoereferirovaniekitajskojpravovojinformacii
AT jianpingguo avtomatičeskoereferirovaniekitajskojpravovojinformacii
AT mojiwei avtomatičeskoereferirovaniekitajskojpravovojinformacii
AT landedmytro avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí
AT zijiangyang avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí
AT shiweizhu avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí
AT jianpingguo avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí
AT mojiwei avtomatičnereferuvannâkitajsʹkoípravovoíínformacíí
first_indexed 2025-07-17T10:57:12Z
last_indexed 2025-07-17T10:57:12Z
_version_ 1850411281235836928
spelling drspiprikievua-article-1582142019-12-27T01:49:46Z Automatic text summarization of Chinese legal information Автоматическое реферирование китайской правовой информации Автоматичне реферування китайської правової інформації Lande, Dmytro Zijiang, Yang Shiwei, Zhu Jianping, Guo Moji, Wei automatic text summarization legal information chinese language cosine measure Jensen-Shannon divergence автоматическое реферирование правовая информация китайский язык косинусная мера мера Дженсена-Шеннона автоматичне реферування правова інформація китайська мова косинусна міра відстань Дженсена-Шеннона A method of automatic text summarization of the legal information provided in Chinese has been developed. The model of the abstract and the procedure of his formation are considered. Two ap-proaches are proposed, namely, to determine the level of importance of sentences, it was suggested to proceed to determine the weight values of separate hieroglyphs, rather than words in the text of documents and abstracts. Also consideration of model of documents as networks of sentences for detection of the most important sentences on parameters of this network has been offered. A new hybrid method of automatic text summarization, covering statistical and marker methods, as well as taking into account the location of sentences in the text of the document is introduced. The offered model of the abstract reflects information need of customers during the work with legal information.The approach to determination of weight values of separate hieroglyphs, but not segmented words in the text of documents and abstracts is realized. This technique avoids the cost-effective procedure of the words segmentation needed for other meaningful methods of Chinese language processing.When summarizing the new idea of determination of weight values of sentences on the basis of weights of separate hieroglyphs, but not words as it is standard was realized. Therefore the quality of summarizing is checked not only proceeding from accounting of scales of separate hieroglyphs, but also taking into account scales of the whole words included in the documents and abstracts to be convinced that the offered approach is satisfactory also by criteria of traditional systems of summarizing.Application of two estimates of quality of the paper without participation of experts — a cosine measure and Jensen-Shannon divergence is shown. Summarizing on the basis of the offered network model of the document was the best by criteria of a cosine measure and Jensen-Shannon's distances for abstracts which volume exceeds 2 sentences. The offered approach taking into account little changes can be used for texts of any subject, in particular, of scientific and technical and news information. Работа посвящена методу автоматического реферирования правовой информации, представленной на китайском языке. Рассмотрена модель реферата и процедура его формирования. Предложено два подхода, а именно: для определения уровня важности предложений - перейти к определению весовых значений отдельных иероглифов, а не слов в тексте документов и рефератов. Также предложено рассмотрение модели документов как сети предложений для выявления наиболее важных предложений по параметрам этой сети. Реализованы и испытаны различные методы автоматического реферирования. Показано применение двух оценок качества реферата без участия экспертов - косинусной меры и дивергениции Дженсена-Шеннона (Jensen-Shannon). Реферирование на основе предложенной сетевой модели документа оказалось лучшим по критериям косинусной меры и расстояния Дженсена-Шеннона для рефератов, объем которых превышает 2 предложения. Предложенный подход с учетом небольших изменений может использоваться для текстов произвольной тематики, в частности, научно-технической и новостной информации. Роботу присвячено методу автоматичного реферування правової інформації, що представ-лено китайською мовою. Розглянуто модель реферату та процедуру його формування. Запропоно-вано два підходи, а саме, для визначення рівня важливості речень — перейти до визначення ваго-вих значень окремих ієрогліфів, а не слів у тексті документів і рефератів. Також запропоновано розгляд моделі документів як мережі із речень для виявлення найбільш важливих речень за пара-метрами цієї мережі. Реалізовано та випробувано різні методи автоматичного реферування. Пока-зано застосування двох оцінок якості реферату без участі експертів — косинусної міри і відстані Дженсена-Шеннона (Jensen-Shannon). Реферування на основі запропонованої мережевої моделі документа виявилося кращим за критеріями косинусної міри та відстані Дженсена-Шеннона для рефератів, обсяг яких перевищує 2 речення. Запропонований підхід з урахуванням невеликих змін може використовуватися для текстів довільної тематики, зокрема, науково-технічної та новинної інформації. Інститут проблем реєстрації інформації НАН України 2018-09-18 Article Article application/pdf http://drsp.ipri.kiev.ua/article/view/158214 10.35681/1560-9189.2018.20.3.158214 Data Recording, Storage & Processing; Vol. 20 No. 3 (2018); 67-82 Регистрация, хранение и обработка данных; Том 20 № 3 (2018); 67-82 Реєстрація, зберігання і обробка даних; Том 20 № 3 (2018); 67-82 1560-9189 ru http://drsp.ipri.kiev.ua/article/view/158214/157618 Авторське право (c) 2021 Реєстрація, зберігання і обробка даних