Запис Детальніше

Статистика появи слів у природних і рандомних текстах

Електронний науковий архів Науково-технічної бібліотеки Національного університету "Львівська політехніка"

Переглянути архів Інформація
 
 
Поле Співвідношення
 
Title Статистика появи слів у природних і рандомних текстах
Statistics of words occurrences in natural and random texts
 
Creator Кушнір, О. С.
Альфавіцький, М. А.
Дзіковський, В. Є.
Іваніцький, Л. Б.
Рихлюк, С. В.
Сокульський, В. І.
 
Contributor Львівський національний університет імені Івана Франка
Природничий коледж Львівського національного університету імені Івана Франка
 
Subject природні тексти
рандомні тексти
статистичні закони лінгвістики
словник
розподіли з важким хвостом
natural texts
random texts
statistical laws of linguistics
vocabulary
fattailed distributions
004.6
004.9
538.9
 
Description Експериментально досліджено статистичні розподіли, що описують появу слів у
кількох природних текстах, а також похідних від них рандомних текстах. Показано, що
масова функція ймовірності відповідних інтервалів між словами є практично однаковою
для природних і рандомних текстів і виявляє важкий вейбулівський хвіст, що не
узгоджується із суто стохастичним характером цих інтервалів. Помітні відхилення
динаміки зростання словника природних і рандомних текстів від динаміки, передбаченої
степеневим законом Гіпса, а також кросовер у словнику одного з природних текстів
підтверджують потребу в узагальненні цього закону.
We study experimentally statistical distributions that describe the appearance of words
in a number of natural texts, as well as in the random texts derived on their basis. It is shown
that the probability mass function of the respective intervals between words is practically the
same for the natural and random texts and manifests a fat tail, which is inconsistent with
purely stochastic character of those intervals. Significant deviations of the vocabulary growth
dynamics found for the natural and random texts from the dynamics predicted by the power
Heaps’ law, together with a crossover found in the dictionary of one of the natural texts,
confirm a need in generalization of that law.
 
Date 2018-11-13T15:34:35Z
2018-11-13T15:34:35Z
2017-03-28
2017-03-28
 
Type Article
 
Identifier Статистика появи слів у природних і рандомних текстах / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, С. В. Рихлюк, В. І. Сокульський // Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2017. — № 872. — С. 162–178.
http://ena.lp.edu.ua:8080/handle/ntb/42952
Statistics of words occurrences in natural and random texts / O. S. Kushnir, M. A. Alfavitskyi, V. Ye. Dzikovskyi, L. B. Ivanitskyi, S. V. Rykhliuk, V. I. Sokulskyi // Visnyk Natsionalnoho universytetu "Lvivska politekhnika". Serie: Informatsiini systemy ta merezhi. — Lviv : Vydavnytstvo Lvivskoi politekhniky, 2017. — No 872. — P. 162–178.
 
Language uk
 
Relation Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі, 872, 2017
http://arxiv.org/abs/1404.1461
1. Baek S. K. Zipf’s law unzipped / S. K. Baek, S. Bernhardsson, P. Minnhagen // New J. Phys. –2011. – Vol. 13. – 043004 (21 pp.).
2. Adamic L. Unzipping Zipf’s law / L. Adamic // Nature. – 2011. – Vol. 474. – P. 164–165.
3. Kornai A. How many words are there? / A. Kornai // Glottometrics. – 2002. –Vol. 4. – P. 60–85.
4. van Leijenhorst D. C. A formal derivation of Heaps’ law / D. C. van Leijenhorst, Th. P. van der Weide // Inf. Sci. – 2005. – Vol. 170. – P. 263–272.
5. Gerlach M. Stochastic model for the vocabulary growth in natural languages / M. Gerlach, E. G. Altmann // Phys. Rev. X. – 2013. – Vol. 3. –021006 (10 pp.).
6. Bernhardsson S. The meta book and size-dependent properties of written language /S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen // New J. Phys. – 2009. – Vol. 11. – 203015(15 pp.).
7. Bernhardsson S. Size-dependent word frequencies and translational invariance of books / S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen // Physica A. – 2010. – Vol. 389. – P. 330–341.
8. Lü L. Zipf’s law leads to Heaps’ law: Analyzing their relation in finite-size systems / L. Lü, Z.-K. Zhang, T. Zhou // PLOS ONE. – 2010. – Vol. 5. – e14139 (11 pp.).
9. Yan X.-Y. Comment on ‘A scaling law beyond Zipf’s law and its relation to Heaps’ law’ [Electronic resource] / X.-Y. Yan, P. Minnhagen. – 2014. – Access mode: http://arxiv.org/abs/1404.1461. – Title from the screen.
10. Lü L. Deviation of Zipf’s and Heaps’ laws in human languages with limited dictionary sizes / L. Lü, Z.-K. Zhang, T. Zhou // Sci. Rep. –2013. – Vol. 3. – 1082 (7 pp.).
11. Font-Clos F. A scaling law beyond Zipf’s law and its relation to Heaps’ law / F. Font-Clos, G. Boleda, A. Corral // New J. Phys. – 2013. – Vol. 15. – 093033 (16 pp.).
12. Bochkarev V. V. Deviations in the Zipf and Heaps laws in natural languages / V. V. Bochkarev, E. Yu. Lerner, A. V. Shevlyakova // J. Phys.: Conf. Ser. – 2014. – Vol. 490. – 012009 (4 pp.).
13. Font- Clos F. Log-log convexity of type-token growth in Zipf’s systems / F. Font-Clos, A. Corral // Phys. Rev. Lett. – 2015. – Vol. 114. – 238701 (5 pp.).
14. Egghe L. Untangling Herdan’s law and Heaps’ law: Mathematical and informetric arguments / L. Egghe // J. Amer. Soc. Inf. Sci. Technol. – 2007. – Vol. 58. – P. 702–709.
15. Ebeling W. Long-range correlations between letters and sentences in texts / W. Ebeling, A. Neiman // Physica A. – 1995. – Vol. 215. – P. 233–241.
16. Hierarchical structures induce long-range dynamical correlations in written texts / E. Alvarez-Lacalle, B. Dorow, J.-P. Eckmann, E. Moses // Proc. Nat. Acad. Sci. (USA). – 2006. – Vol. 103. – P. 7956–7961.
17. Altmann E. G. Beyond word frequency: Bursts, lulls, and scaling in the temporal distributions of words / E. G. Altmann, J. B. Pierrehumbert, A. E. Motter // PLOS ONE. – 2009. – Vol. 4. – e7678 (7 pp.).
18. Altmann E. G. On the origin of longrange correlations in texts / E. G. Altmann, G. Cristadoro, M. D. Esposti // Proc. Nat. Acad. Sci. (USA). –2012. – Vol. 109. – P. 11582–11587.
19. Флуктуації частоти літер і знаків в українських і російських текстах / О. С. Кушнір, А. М. Байовський, Л. Б. Іваніцький, С. В. Рихлюк // Матер. VII Укр.-польськ. наук.-практ. конф. “Електрон. та інф. технол.”. – Львів : ЛНУ, 2015. – С. 76–79.
20. Статистичний розподіл і флуктуації довжин речень в українському, російському і англійському корпусах / О. С. Кушнір, О. С. Брик, В. Є. Дзіковський, Л. Б. Іваніцький, І. М. Катеринчук, Я. П. Кісь // Вісн. нац. ун-ту “Львівська політехніка”. Сер. “Інф. сист. та мережі”. – 2016. – № 854. –С. 228–239.
21. Eliazar I. The growth statistics of Zipfian ensembles: Beyond Heaps’ law / I. Eliazar // Physica A. – 2011. – Vol. 390. – P. 3189–3203.
22. Simon H. On a class of skew distribution functions / H. Simon // Biometrika. – 1955. – Vol. 42. – P. 425–440.
23. Barabási A.-L. The origin of bursts and heavy tails in human dynamics / A.-L. Barabási // Nature. – 2005. – Vol. 435. – P. 207–211.
24. Chen Y. S. Exponential recurrence distribution in the Simon-Yule model of text / Y. S. Chen // Cybernetics and Systems. – 1988. – Vol. 19. – P. 521–545.
25. Zanette D. H. Dynamics of text generation with realistic Zipf distribution / D. H. Zanette, M. A. Montemurro // J. Quant. Linguist. – 2005. – Vol. 12. – P. 29–40.
26. Keyword detection in natural languages and DNA / M. Ortuño, P. Carpena, P. Bernaola-Galván, E. Muñoz, A. M. Somoza // Europhys. Lett. – 2002. – Vol. 57. – P. 759–764.
27. Herrera J. P. Statistical keyword detection in literary corpora / J. P. Herrera, P. A. Pury // Eur. Phys. J. – 2008. – Vol. 63. – P. 135–146.
28. Level statistics of words: Finding keywords in literary texts and symbolic sequences / P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver // Phys. Rev. E. – 2009. – Vol. 79. – 035102(R) (4 pp.).
29. Про статистику відстаней між словами в тексті та проблему розпізнавання змістових слів / О. С. Кушнір, А. В. Волоско, Л. Б. Іваніцький, С. В. Рихлюк // Елект- роніка та інф. технол. – 2016. – Вип. 6. – С. 155–164.
30. До пояснення механізму явища “спалахів” у статистиці лінгвістичних елементів: часи очікування буквених n-грам / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, І. М. Катеринчук, О. І. Шарга // Матер. VIII Укр.-польськ. наук.-практ. конф. “Електрон. та інф. технол.”. – Львів : ЛНУ, 2016. – С. 84–89.
31. The effect of long-term correlations on the return periods of rare events / A. Bunde, J. F. Eichner, S. Havlin, J. W. Kantelhardt // Physica A. – 2003. – Vol. 330. – P. 1–7.
32. Vajna S. Modelling bursty time series / S. Vajna, B. Tóth, J. Kertész // New J. Phys. – 2013. – Vol. 15. – 103023 (17 pp.).
33. Goh K.-I. Burstiness and memory in complex systems / K.-I. Goh, A.-L. Barabási // Europhys. Lett. – 2008. – Vol. 81. –48002 (5 pp.).
34. Altmann E. G. Recurrence time analysis, long-term correlations, and extreme events / E. G. Altmann, H. Kantz // Phys. Rev. E. – 2005. – Vol. 71. – 056106 (9 pp.).
35. Statistics of return intervals in long-term correlated records / J. F. Eichner, J. W. Kantelhardt, A. Bunde, S. Havlin // Phys. Rev. E. – 2007. – Vol. 75. – 011128 (9 pp.).
36. Cattuto C. A Yule-Simon process with memory / C. Cattuto, V. Loreto, V. D. P. Servedio // Europhys. Lett. – 2006. – Vol. 76. – P. 208–214.
37. Ferrer i Cancho R. Two regimes in the frequency of words and the origins of complex lexicons: Zipf’s law revisited / R. Ferrer i Cancho, R. V. Solé // J. Quant. Linguist. – 2001. – Vol. 8. – P. 165–173.
38. Santhanam M. S. Return interval distribution of extreme events and long-term memory / M. S. Santhanam, H. Kantz // Phys. Rev. E. – 2008. – Vol. 78. – 051113 (9 pp.).
39. Long-term memory: A natural mechanism for the clustering of extreme events and anomalous residual times in climate records / A. Bunde, J. F. Eichner, J. W. Kantelhardt, S. Havlin // Phys. Rev. Lett. – 2005. – Vol. 94. – 048701 (4 pp.).
40. Gerlach M. Scaling laws and fluctuations in the statistics of word frequencies / M. Gerlach, E. G. Altmann // New J. Phys. – 2014. – Vol. 16. – 113010 (19 pp.).
41. Improving statistical keyword detection in short texts: Entropic and clustering approaches / C. Carretero-Campos, P. Bernaola-Galván, P. Ch. Ivanov, P. Carpena // Phys. Rev. E. – 2012. – Vol. 85. – 011139 (6 pp.).
42. Moreno-Sánchez I. Large-scale analysis of Zipf’s law in English texts / I. Moreno-Sánchez, F. Font-Clos, A. Corral // PLOS ONE. – 2016. – Vol. 11. – e0147073(19 pp.).
43. Kushnir O. S. New text-length scaling effects in statistics of natural texts / O. S. Kushnir, L. B. Ivanitskyi, S. V. Rykhlyuk // Матер. VII Укр.-польськ. наук.-практ. конф. “Електрон. та інф.технол.”. – Львів : ЛНУ, 2015. – P. 80–83.
44. Ferrer i Cancho R. Zipf’s law from a communicative phase transition / R. Ferrer i Cancho // Eur. Phys. J.: B. – 2005. – Vol. 47. – P. 449–457.
45. Long-range correlations in nucleotide sequences / C.-K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H. E. Stanley // Nature. – 1992. – Vol. 356. – P. 168–170.
1. Baek S. K. Zipf’s law unzipped, S. K. Baek, S. Bernhardsson, P. Minnhagen, New J. Phys. –2011, Vol. 13, 043004 (21 pp.).
2. Adamic L. Unzipping Zipf’s law, L. Adamic, Nature, 2011, Vol. 474, P. 164–165.
3. Kornai A. How many words are there?, A. Kornai, Glottometrics, 2002. –Vol. 4, P. 60–85.
4. van Leijenhorst D. C. A formal derivation of Heaps’ law, D. C. van Leijenhorst, Th. P. van der Weide, Inf. Sci, 2005, Vol. 170, P. 263–272.
5. Gerlach M. Stochastic model for the vocabulary growth in natural languages, M. Gerlach, E. G. Altmann, Phys. Rev. X, 2013, Vol. 3. –021006 (10 pp.).
6. Bernhardsson S. The meta book and size-dependent properties of written language /S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen, New J. Phys, 2009, Vol. 11, 203015(15 pp.).
7. Bernhardsson S. Size-dependent word frequencies and translational invariance of books, S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen, Physica A, 2010, Vol. 389, P. 330–341.
8. Lü L. Zipf’s law leads to Heaps’ law: Analyzing their relation in finite-size systems, L. Lü, Z.-K. Zhang, T. Zhou, PLOS ONE, 2010, Vol. 5, e14139 (11 pp.).
9. Yan X.-Y. Comment on ‘A scaling law beyond Zipf’s law and its relation to Heaps’ law’ [Electronic resource], X.-Y. Yan, P. Minnhagen, 2014, Access mode: http://arxiv.org/abs/1404.1461, Title from the screen.
10. Lü L. Deviation of Zipf’s and Heaps’ laws in human languages with limited dictionary sizes, L. Lü, Z.-K. Zhang, T. Zhou, Sci. Rep. –2013, Vol. 3, 1082 (7 pp.).
11. Font-Clos F. A scaling law beyond Zipf’s law and its relation to Heaps’ law, F. Font-Clos, G. Boleda, A. Corral, New J. Phys, 2013, Vol. 15, 093033 (16 pp.).
12. Bochkarev V. V. Deviations in the Zipf and Heaps laws in natural languages, V. V. Bochkarev, E. Yu. Lerner, A. V. Shevlyakova, J. Phys., Conf. Ser, 2014, Vol. 490, 012009 (4 pp.).
13. Font- Clos F. Log-log convexity of type-token growth in Zipf’s systems, F. Font-Clos, A. Corral, Phys. Rev. Lett, 2015, Vol. 114, 238701 (5 pp.).
14. Egghe L. Untangling Herdan’s law and Heaps’ law: Mathematical and informetric arguments, L. Egghe, J. Amer. Soc. Inf. Sci. Technol, 2007, Vol. 58, P. 702–709.
15. Ebeling W. Long-range correlations between letters and sentences in texts, W. Ebeling, A. Neiman, Physica A, 1995, Vol. 215, P. 233–241.
16. Hierarchical structures induce long-range dynamical correlations in written texts, E. Alvarez-Lacalle, B. Dorow, J.-P. Eckmann, E. Moses, Proc. Nat. Acad. Sci. (USA), 2006, Vol. 103, P. 7956–7961.
17. Altmann E. G. Beyond word frequency: Bursts, lulls, and scaling in the temporal distributions of words, E. G. Altmann, J. B. Pierrehumbert, A. E. Motter, PLOS ONE, 2009, Vol. 4, e7678 (7 pp.).
18. Altmann E. G. On the origin of longrange correlations in texts, E. G. Altmann, G. Cristadoro, M. D. Esposti, Proc. Nat. Acad. Sci. (USA). –2012, Vol. 109, P. 11582–11587.
19. Fluktuatsii chastoty liter i znakiv v ukrainskykh i rosiiskykh tekstakh, O. S. Kushnir, A. M. Baiovskyi, L. B. Ivanitskyi, S. V. Rykhliuk, Mater. VII Ukr.-polsk. nauk.-prakt. konf. "Elektron. ta inf. tekhnol.", Lviv : LNU, 2015, P. 76–79.
20. Statystychnyi rozpodil i fluktuatsii dovzhyn rechen v ukrainskomu, rosiiskomu i anhliiskomu korpusakh, O. S. Kushnir, O. S. Bryk, V. Ye. Dzikovskyi, L. B. Ivanitskyi, I. M. Katerynchuk, Ya. P. Kis, Visn. nats. un-tu "Lvivska politekhnika". Ser. "Inf. syst. ta merezhi", 2016, No 854. –P. 228–239.
21. Eliazar I. The growth statistics of Zipfian ensembles: Beyond Heaps’ law, I. Eliazar, Physica A, 2011, Vol. 390, P. 3189–3203.
22. Simon H. On a class of skew distribution functions, H. Simon, Biometrika, 1955, Vol. 42, P. 425–440.
23. Barabási A.-L. The origin of bursts and heavy tails in human dynamics, A.-L. Barabási, Nature, 2005, Vol. 435, P. 207–211.
24. Chen Y. S. Exponential recurrence distribution in the Simon-Yule model of text, Y. S. Chen, Cybernetics and Systems, 1988, Vol. 19, P. 521–545.
25. Zanette D. H. Dynamics of text generation with realistic Zipf distribution, D. H. Zanette, M. A. Montemurro, J. Quant. Linguist, 2005, Vol. 12, P. 29–40.
26. Keyword detection in natural languages and DNA, M. Ortuño, P. Carpena, P. Bernaola-Galván, E. Muñoz, A. M. Somoza, Europhys. Lett, 2002, Vol. 57, P. 759–764.
27. Herrera J. P. Statistical keyword detection in literary corpora, J. P. Herrera, P. A. Pury, Eur. Phys. J, 2008, Vol. 63, P. 135–146.
28. Level statistics of words: Finding keywords in literary texts and symbolic sequences, P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver, Phys. Rev. E, 2009, Vol. 79, 035102(R) (4 pp.).
29. Pro statystyku vidstanei mizh slovamy v teksti ta problemu rozpiznavannia zmistovykh sliv, O. S. Kushnir, A. V. Volosko, L. B. Ivanitskyi, S. V. Rykhliuk, Elekt- ronika ta inf. tekhnol, 2016, Iss. 6, P. 155–164.
30. Do poiasnennia mekhanizmu yavyshcha "spalakhiv" u statystytsi linhvistychnykh elementiv: chasy ochikuvannia bukvenykh n-hram, O. S. Kushnir, M. A. Alfavitskyi, V. Ye. Dzikovskyi, L. B. Ivanitskyi, I. M. Katerynchuk, O. I. Sharha, Mater. VIII Ukr.-polsk. nauk.-prakt. konf. "Elektron. ta inf. tekhnol.", Lviv : LNU, 2016, P. 84–89.
31. The effect of long-term correlations on the return periods of rare events, A. Bunde, J. F. Eichner, S. Havlin, J. W. Kantelhardt, Physica A, 2003, Vol. 330, P. 1–7.
32. Vajna S. Modelling bursty time series, S. Vajna, B. Tóth, J. Kertész, New J. Phys, 2013, Vol. 15, 103023 (17 pp.).
33. Goh K.-I. Burstiness and memory in complex systems, K.-I. Goh, A.-L. Barabási, Europhys. Lett, 2008, Vol. 81. –48002 (5 pp.).
34. Altmann E. G. Recurrence time analysis, long-term correlations, and extreme events, E. G. Altmann, H. Kantz, Phys. Rev. E, 2005, Vol. 71, 056106 (9 pp.).
35. Statistics of return intervals in long-term correlated records, J. F. Eichner, J. W. Kantelhardt, A. Bunde, S. Havlin, Phys. Rev. E, 2007, Vol. 75, 011128 (9 pp.).
36. Cattuto C. A Yule-Simon process with memory, C. Cattuto, V. Loreto, V. D. P. Servedio, Europhys. Lett, 2006, Vol. 76, P. 208–214.
37. Ferrer i Cancho R. Two regimes in the frequency of words and the origins of complex lexicons: Zipf’s law revisited, R. Ferrer i Cancho, R. V. Solé, J. Quant. Linguist, 2001, Vol. 8, P. 165–173.
38. Santhanam M. S. Return interval distribution of extreme events and long-term memory, M. S. Santhanam, H. Kantz, Phys. Rev. E, 2008, Vol. 78, 051113 (9 pp.).
39. Long-term memory: A natural mechanism for the clustering of extreme events and anomalous residual times in climate records, A. Bunde, J. F. Eichner, J. W. Kantelhardt, S. Havlin, Phys. Rev. Lett, 2005, Vol. 94, 048701 (4 pp.).
40. Gerlach M. Scaling laws and fluctuations in the statistics of word frequencies, M. Gerlach, E. G. Altmann, New J. Phys, 2014, Vol. 16, 113010 (19 pp.).
41. Improving statistical keyword detection in short texts: Entropic and clustering approaches, C. Carretero-Campos, P. Bernaola-Galván, P. Ch. Ivanov, P. Carpena, Phys. Rev. E, 2012, Vol. 85, 011139 (6 pp.).
42. Moreno-Sánchez I. Large-scale analysis of Zipf’s law in English texts, I. Moreno-Sánchez, F. Font-Clos, A. Corral, PLOS ONE, 2016, Vol. 11, e0147073(19 pp.).
43. Kushnir O. S. New text-length scaling effects in statistics of natural texts, O. S. Kushnir, L. B. Ivanitskyi, S. V. Rykhlyuk, Mater. VII Ukr.-polsk. nauk.-prakt. konf. "Elektron. ta inf.tekhnol.", Lviv : LNU, 2015, P. 80–83.
44. Ferrer i Cancho R. Zipf’s law from a communicative phase transition, R. Ferrer i Cancho, Eur. Phys. J., B, 2005, Vol. 47, P. 449–457.
45. Long-range correlations in nucleotide sequences, C.-K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H. E. Stanley, Nature, 1992, Vol. 356, P. 168–170.
 
Rights © Національний університет „Львівська політехніка“, 2017
© Кушнір О. С., Альфавіцький М. А., Дзіковський В. Є., Іваніцький Л. Б., Рихлюк С. В., Сокульський В. І., 2017
 
Format 162-178
17
application/pdf
image/png
 
Coverage Львів
 
Publisher Видавництво Львівської політехніки