Model openailong

Training model: gpt-4o-mini
Inference model: gpt-4o-mini

Investigations

Performance

Dataset	Validation accuracy	Test accuracy
espionage	0.75	0.7
potions	0.7	0.65
southgermancredit	0.6538461538461539	0.5398230088495575
timetravel_insurance	0.75	0.8
titanic	0.7450980392156863	0.6862745098039216
wisconsin	0.5396825396825397	0.5151515151515151