JGlobe
מענה על שאלות עבור גניאולוגיה יהודית
בהובלת פרופ' גפת-טמיר, ד"ר אלמליח וד"ר סויסה
מטרות מחקר זה כוללות: (1) עיצוב מודל החלטה מעשי עבור מומחים מתחום מדעי הרוח הדיגיטליים בנוגע למתי ואיך לבחור את גישות הלמידה העמוקה המתאימות למחקר. מודל החלטה זה מבוסס על ניתוח מחקרים מתחום מדעי הרוח הדיגיטליים בספרות העדכנית ופתרונות אפשריים. (2) תכנון ואימות אמפירי של ארכיטקטורה (מקצה לקצה) ומתודולוגיה חדשה להתאמת מודל רשתות נוירונים עמוקות למשימת "קריאה קרובה" (מענה על שאלות בשפה חופשית על אדם או קבוצת אנשים ספציפיים) על גרפי ידע גנאלוגיים בשילוב טקסטים לא מובנים. ו(3) תכנון ואימות אמפירי של ארכיטקטורה (מקצה לקצה) ומתודולוגיה חדשה להתאמת מודל רשתות נוירונים עמוקות ל"קריאה רחוקה" (שאלות כמותיות על העץ כולו או מספר גדול של אנשים) באותו התחום.
בסיס הנתונים הגנאלוגי העיקרי עבור מאמרים אלה מורכב מ3,140 עצים משפחתיים המכילים 1,847,224 אנשים שונים מהמרכז לגנאלוגיה יהודית על שם דאגלס א. גולדמן במוזיאון אנו. כפי שמתואר בפרקי המאמרים, בשל המבנה והמאפיינים הייחודים של עצי משפחה גנאלוגיים, תחום זה דורש מחקר ומודלים ספציפיים. בסיס נתונים פתוחים נוספים שימשו כבסיס לאימון למודלים בהתאם למאמר הרלוונטי.
מחקר זה מטפל בשני האתגרים העיקריים שכמעט כל חוקר DH/LIS יכול לצפות להיתקל בו באמצעות מודלים של DNN בזמן ביצוע מחקר. בשלב הראשון המחקר מציג שיטה המתמודדת עם מספר אתגרים למענה על שאלות עובדתיות בתחום הגנאלוגי, כגון ייצוג גרף גנאלוגי כגרף ידע, אלגוריתם למעבר על גרפים גנאלוגיים המותאם לפרשנות הגנאלוגית של משמעות הקשר בין ה"עלים" (אנשים ומשפחות), יצירת בסיסי נתונים מפורמט גנאלוגי (GEDCOM), והגדרת סוגי שאלות גנאלוגיות בתחום. המודל המאומן על בסיס הנתונים הגנאלוגי שנוצר עם קשרים מדרגה שנייה, Uncle-BERT2, הניב ציון F1 של 81.45 בהשוואה למודל הבסיס BERT (60.12 בלבד) שאומן על בסיס נתונים סטנדרטי של שאלות כלליות. יתרה מכך, המחקר בדק את ההשפעה של סוג השאלה על הדיוק של מודלים של רשתות נוירונים במענה לשאלות גנאלוגיות ומצא שלשאלות הקשורות לתאריך יש תכונות כלליות יותר מאשר שאלות אחרות ושאלות הקשורות למקום רגישות יתר "לרעש" מאשר סוגי שאלות אחרות.
בשלב הבא המחקר מתאר ומיישם מתודולוגיה רב-שלבית (מקצה לקצה) עבור מענה לשאלות כמותיות באמצעות רשתות נוירונים בתחום הגנאלוגי. התוצאות מראות שהמודל, GLOBE, מצליח לענות על שאלות כמויות ברמת איכות גדולה יותר מהמודל הגנרי המתקדם בתחום. יתרה מכך, מחקר זה בחן את ההשפעה של עיצוב בסיס הנתונים על הדיוק של המודל והראה כי המורכבות של התחום הגנאלוגי דורשת ארכיטקטורה מורכבת יותר שיכולה לפצל ולהרכיב טבלאות מבסיס הנתונים בהתבסס על השאלה. בנוסף, נמצא שהעיצוב של בסיס הנתונים המבוסס על דרגת הנרמול השישית (Date et al., 2004) הוא העיצוב האפקטיבי ביותר. יתר על כן, מחקר זה מראה את ההשפעה של הפעולה המתמטית על יכולתו של מודל הבינה המלאכותית לחזות תשובות קרובות לתשובה הנכונה גם כאשר הוא טועה.
לסיכום, התרומות של המחקר הן (1) מודל החלטה לטיפול באתגרי השימוש ברשתות נוירונים לחוקרי מדעי המידע \ מדעי הרוח הדיגיטליים, (2) ייצוג גרף ידע גנאלוגי על בסיס תקן הGEDCOM, (3) אלגוריתם למעבר על גרפים גנאלוגיים (Gen-BFS), (4) בסיס נתונים לאימון מודל בינה מלאכותית שנוצר באופן אוטומטי בסגנון SQuAD לתחום הגנאלוגי (Gen-SQuAD), (5) מודל מבוסס-BERT המותאם למענה על שאלות עובדתיות עבור התחום הגנאלוגי (Uncle-BERT), (6) ייצוג בסיס נתונים גנאלוגי ויצירת מבנה גרף ידע מתקן GEDCOM לבסיס נתונים מובנה עבור תשובות לשאלות כמותיות (GenAgg), (7) הערכה של עיצוב בסיס הנתונים האופטימלי עבור מענה לשאלות כמותיות בתחום הגנאלוגי, (8) ארכיטקטורה למענה לשאלות כמותיות בתחום הגנאלוגי, ו- (9) מודל מבוסס BERT למענה לשאלות כמותיות בתחום הגנאלוגי (GLOBE).
חשוב לציין שניתן ליישם את המתודולוגיות המוצעות על משימות עיבוד שפה טבעיות (NLP) אחרות בתחום הגנאלוגי (ובתחומי מדעי הרוח הדיגיטליים נוספים), כגון חילוץ ישויות, סיווג טקסט, סיכום טקסט ועוד. חוקרים יכולים להשתמש בתוצאות של מחקר זה כדי להפחית הזמן, העלות והמורכבות ולשפר את הדיוק במחקר עיבוד שפה טבעיות בתחום הגנאלוגי.
להלן מדגם מתוצאות המחקר.
Table 1: The most common occupation of women in the top counties (1800-1925).
Table 2 shows the most common occupation of men in the top counties.
Table 2: The most common occupation of men in the top counties (1800-1925).
As can be observed from Tables 1 and 2, while historically, most Jewish women in most countries in the examined period were “housewives”, men's occupation was more diverse when the merchant occupation was the most popular.
As shown in Figure 1 presents the distribution of people around the globe.
Figure 1: Number of people per country (1800-1925).
When splitting between European and non-European individuals (i.e., not born in Europe), we can find interesting trends. As shown in Figure 2, the life expectancy of people from the top European countries in the dataset drops over time and is at its lowest point for people born from 1900-1925 (and in the Netherlands even sooner). This could be the result of two world wars that happened between 1914 to 1945 (i.e., people born between 1900-1925 were of military age). Moreover, there is a significant variance in life expectancy between countries. For example, between 1825 and 1849, people who lived in Denmark reached the age of 79.875, while people who lived in Andora lived for 58.846 years on average.
Figure 3: Life expectancy in the top European countries (1800-1925).
On the other hand, as can be observed from Figure 33, while there is a decrease in life expectancy over time in non-European countries, there is no dramatic drop like in Europe, except for Turkey, Argentina, and Canada.
Figure 4: Life expectancy in the top non-European countries (1800-1925).
Moreover, as shown in Figures 5 and 6, unlike the intuition that over time people tend to change more spouses, it seems that for the Jewish population in our database in the examined period in most of the countries both in Europe and outside Europe, there is a trend to have fewer spouses over time.
Figure 5: Average number of spouses in life in European countries (1800-1925).
Figure 6: Average number of spouses in life in non-European countries (1800-1925).
When comparing births, Figure 7 clearly shows a “baby boom” in Poland from 1850 compared to other European countries.
Figure 7: Average number of births in European countries (1800-1925).
The same phenomena can also be observed in the United States (and somewhat in Israel) compared to other non-European countries in Figure 8. This phenomenon could result from the massive immigration of Jewish people to these countries during these years.
Figure 8: Average number of births in non-European countries (1800-1925)
Sadly, the number of deaths also increases over time, as shown in figures 9 and 10. This could be due to the natural increase of the population (i.e., the “baby boom” and immigration in the United States and Poland) or due to unnatural events such as the two world wars, which can explain the dramatical increase in the number of deaths of people born in 1875-1899 in Poland and Russia who were in military age in the periods of the two world wars.
Figure 9: Average number of deaths in European countries (1800-1925)
Figure 10: Average number of births in non-European countries (1800-1925).
Furthermore, Figures 11 and 12 present a global decreasing trend in the number of children in Jewish families. While in the 1800s, there was a high variance between counties (both European and non-European), at the beginning of the 1900s, the variance in the number of children reduced dramatically. For example, between 1825 and 1850, the average number of children in a Jewish family living in the Czech Republic was 3.848, while in the same period, the average number of children in a Jewish family living in Andorra was 8.24
Figure 11: Average number of children in a family in European countries (1800-1925).
Figure 12: Average number of children in a family in non-European countries (1800-1925).
All the phenomena and trends discovered by using the developed QA system should be further investigated and explained by sociologists and historians. Finally, in addition to the question-answering tasks, the developed end-to-end methodologies can also be applied to other downstream genealogical NLP (Natural Language Processing) tasks, including entity extraction, summarization, and classification.
פרסומים:
-
Suissa, O., Elmalech, A. & Zhitomirsky-Geffet M. (2023). Around the GLOBE: Numerical Aggregation Question-Answering on Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks. ACM Journal of Computing and Cultural Heritage. https://doi.acm.org?doi=3586081
-
Suissa, O., Zhitomirsky-Geffet, M. and Elmalech, A. (2023). Question Answering with Deep Neural Networks for Semi-Structured Heterogeneous Genealogical Knowledge Graphs, Semantic Web Journal, 14(2), 209-237. DOI:10.3233/SW-222925
-
Suissa, O., Elmalech, A. and Zhitomirsky-Geffet M. (2021). Text Analysis Using Deep Neural Networks in Digital Humanities and Information Science, Journal of Association for Information Science and Technology, 73(2), 268-287. https://doi.org/10.1002/asi.24544
-
Zhitomirsky-Geffet, M. and Suissa O. (October, 2023). AI-Based Research Tool for Large Genealogical Corpora: The Case of Jewish Communities Worldwide. In ASIS&T conference, October 31th, 2023, London, UK