ResponsaNET

בנייה וניתוח רשתות ציטוטים בספרות השו"ת

בהובלת פרופ' גפת-טמיר, ד"ר שלר, ד"ר קצוף ומר בן גיגי

במימון משרד המדע והטכנולוגיה

הספרות הרבנית מאופיינת בריבוי נקודות מבט ובדעות מגוונות ומנוגדות שיסודם במקורות קדומים יותר שהשפעתם נמשכת בדורות הבאים. אחד האתגרים בחקר ספרות מסוג זה הוא לזהות ולארגן את המחלוקות וההשקפות הרבות ולבחון את התפתחותן לאורך הדורות. פרויקט זה מציע פרדיגמה ומסגרת מושגית חדשה לחקר ריבוי נקודות מבט בספרות ההיסטורית באמצעות הפריזמה של רשתות ציטוטים המוטמעות בה, כמו גם מתודולוגיה חישובית המבוססת על אלגוריתמים מתקדמים של למידת מכונה שיושמו בתת-תחום של ספרות רבנית כמקרה מבחן. ראשית, אונטולוגיה של נתוני ציטוטים תיבנה באופן אוטומטי למחצה על סמך טקסטים של פרויקט השו"ת אשר ישמשו לאחר מכן ליצירת רשתות ציטוט דו-צדדיות מכוונות (כאשר מחברים וספרים יהוו את הצמתים ויחסי הציטוט ביניהם ייצגו את הקשתות) ברמות שונות של פירוט, למשל. הרשת הגלובלית לכל הקורפוס, רשתות מקומיות עבור תתי-קבוצות נבחרות של ספרים או קבוצות של סופרים, ורשתות אישיות לספרים ומחברים ספציפיים. לאחר מכן, ניישם שיטות וידע המשמשים בחקר הספרות הרבנית המסורתית כדי לחקור האם, כיצד ובאיזו מידה משתקפות נקודות המבט של המחברים ברשתות שהושגו, והאם מחברים בעלי קשרים חזקים ברשת חולקים את אותן דעות. למרות שהמחקר יבחן את הפרדיגמה המוצעת בקורפוס פרויקט השו"ת, ניתן ליישם את המסגרת המתודולוגית המוצעת על כל מדף הספרים היהודי, כמו גם על קורפוסים אחרים של ספרות בשפות, ז'אנרים ותקופות אחרות. הטכנולוגיה המפותחת תשולב בפרויקט שו"ת בר-אילן ותבטיח את קיומה ארוכת הטווח והשפעתה העתידיתה על תלמיד החכמים והלומדים. הפרויקט ממומן על ידי משרד המדע והטכנולוגיה הישראלי.

במחקר זה השתמשנו בתת-קבוצה של ספרות השו"ת שנכתבה בין השנים 1000 עד 1500 לספירה. תקופה זו נקראת בספרות הרבנית תקופת הראשונים. הקורפוס מכיל כ-30 ספרים (כלומר, אוספי חיבורי שו"ת שבהם כמעט כל קובץ בודד נכתב על ידי מחבר בודד), המסכמים בסך הכל 12,193 תשובות מספרי שו"ת (כלומר, תשובות פרטניות לשאלות הלכתיות). גודלו של ספר השו"ת משתנה בין עשרות למאות תשובות. חלק מהתשובות קצרות למדי ומכילות שורות בודדות, בעוד שאחרות הן באורך אלפי מילים. הקורפוס המכסה את כל ספרות השו"ת הידועה מהתקופה סופק על ידי פרויקט שו"ת בר-אילן. הניסויים שלנו הראו שחילוץ הפניות הוא משימה מורכבת שלא ניתן ליישם ביעילות על ידי מודל למידה יחיד. לכן, בהתבסס על המודלים הגנריים לעיל, הוכשרו שני תת-מודלים נפרדים ספציפיים למשימה למשימות הבאות: 1) תת-מודל לזיהוי ישויות אטומיות בהתייחסות; 2) תת-מודל לזיהוי עמדות ההתחלה/סיום של הפניה בטקסט.

התוצאות הטובות ביותר הושגו על ידי BERT-CRF שהוכשר מראש על טקסטים עבריים רבניים (PRECISION 0.896, RECALL 0.905 וציון F1 הוא 0.901) כפי שמוצג באיור 1. הביצועים הנמוכים ביותר הושגו על ידי מודל BERT שהוכשר על עברית מודרנית, בשל המאפיינים השונים שמציבים טקסטים עבריים היסטוריים שאינם קיימים בשפה העברית החדשה.

ביצועי המודלים השונים

רשת הציטוטים לתקופת הראשונים

מידת הפתיחות למקורות חיצוניים של המחברים השונים בתקופת הראשונים

ציטוטים בין הקהילות השונות

פרסומים:

Ben-Gigi N., Zhitomirsky-Geffet M., Schler J., Katzoff B. (2024). Citation network analysis for viewpoint plurality assessment of historical corpora: The case of the medieval rabbinic literature. PLoS ONE.
Ben-Gigi N., Zhitomirsky-Geffet M., Schler J., Katzoff B. (2023). Automatic construction of the citation network from the medieval Jewish Responsa literature. ACM Journal of Computing and Cultural Heritage.
Ben-Gigi N., Zhitomirsky-Geffet M., Schler J. and Katzoff B. (2022). “Investigating inter-sage influences in the Responsa literature through the prism of citation networks”. The 18th World Congress of Jewish Studies, 7-11 August, 2022, Jerusalem.
Ben-Gigi N., Zhitomirsky-Geffet M., Schler J. and Katzoff B. (2022). “Global and local citation networks as a new paradigm for multiple viewpoint investigation in historical literature: a case study of the Rabbinic literature corpus”. ADHO Digital Humanities conference (DH-2022), 24-29 July, 2022, Tokyo. Virtual conference. https://dh2022.dhii.asia/dh2022bookofabsts.pdf