2025年05月10日の論文要約

LLM Code Customization with Visual Results: A Benchmark on TikZ

2025年05月10日 04:13

https://arxiv.org/abs/2505.04670v1 C(・ω・ )つみんなー！🎉やったぜ！新しい研究、vTikZが登場だよ～！🌟AIがコードを自然言語でカスタマイズして、素敵なビジュアルを作り出すためのテストをするんだ✨でもね、意外と難しいみたい😲コードのどこをいじるか見つけるのも、正しい変更をするのも、意図に合うか確認するのも大変なんだって💻💔これからのAIとデザインの冒険、楽しみだね！🌈✨

arXiv

REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM

2025年05月10日 04:13

https://arxiv.org/abs/2505.04673v1 C(・ω・ )つみんなー！🌟やっほー！みんな、AIの進化がすごいことになってるよ！📸✨新しい「REVEAL」っていうフレームワークが登場したんだ！これは、画像を使ったAIの安全性をチェックするためのものなんだよ！👀💻多くの会話を通じて、AIの弱点を見つけて、より安全に使えるようにするんだ！🤖💕さあ、みんなも一緒にAIの未来を探検しよう！🚀🎉

arXiv

Retrieval Augmented Generation Evaluation for Health Documents

2025年05月10日 04:13

https://arxiv.org/abs/2505.04680v1 C(・ω・ )つみんなー！やっほー！👋✨新しい研究が登場したよ！この論文では、健康に関する情報を扱うときに、大きな言語モデル（LLM）をどうやって上手に使うかを探ってるんだ！🩺📚賢いAIが、私たちの健康をもっとわかりやすくサポートしてくれるかも！🤖💖難しいことを簡単にする方法を見つけたから、みんなも健康についての学びがもっと楽しくなるかもね！🎉✨興味津々でしょ？💕

arXiv

Exploring Influence Factors on LLM Suitability for No-Code Development of End User IoT Applications

2025年05月10日 04:12

https://arxiv.org/abs/2505.04710v1 C(・ω・ )つみんなー！🌟こんにちは、みんな！IoTアプリを作りたいけど、プログラミングが難しいと思っている君に朗報だよ！🎉新しい研究では、みんなが大好きな「大きな言葉モデル（LLM）」を使って、難しいコードなしで自分だけのアプリが作れる方法を探ったんだ！✨これで、君のアイデアが簡単に形になるかも！👾さあ、IoTの世界に飛び込んで、君の個性を活かしたアプリを作っちゃおう！🚀

arXiv

SOAEsV2-7B/72B: Full-Pipeline Optimization for State-Owned Enterprise LLMs via Continual Pre-Training, Domain-Progressive SFT and Distillation-Enhanced Speculative Decoding

2025年05月10日 04:12

https://arxiv.org/abs/2505.04723v1 C(・ω・ )つみんなー！やっほー！✨新しいLLM、SOAEsV2-7B/72Bが登場したよ！このモデルは、特別な知識を持ちながらも、普通の会話も得意なんだ！🤖💬しかも、超速い推論ができちゃうから、長いお話もサクサク処理！📈🎉みんなが使うと、仕事や勉強がもっと楽しくなるよ！🚀これで、知識の冒険に出かけよう！🗺️✨

arXiv

QBD-RankedDataGen: Generating Custom Ranked Datasets for Improving Query-By-Document Search Using LLM-Reranking with Reduced Human Effort

2025年05月10日 04:12

https://arxiv.org/abs/2505.04732v1 C(・ω・ )つみんなー！🎉やっほー！新しい研究が登場だよ！📚「QBD-R ANKED DATAGEN」っていう名前で、文書を使った検索をもっと簡単にする方法を考えたんだ！💡専門家の手を借りずに、特別なデータセットをサクッと作れるんだよ！✨これで、法律や特許のマッチングもバッチリ！👩‍⚖️👨‍🔬人間の手間を減らして、クールな検索ができるようになるんだ！🚀みんなも注目してね！💖

arXiv

The Promise and Limits of LLMs in Constructing Proofs and Hints for Logic Problems in Intelligent Tutoring Systems

2025年05月10日 04:11

https://arxiv.org/abs/2505.04736v1 C(・ω・ )つみんなー！🤖✨やあ！みんな、すごいニュースだよ～！なんと、私たちの新しい研究では、AIが論理の問題を解く手伝いをしてくれるんだ！🎉大きな言語モデル（LLM）を使って、学生が次に何をすればいいかを教えてくれるんだよ！💡でも、ちょっとした問題もあって、AIが時々間違えちゃうことも…😅それでも、すごく役立つ可能性があるから、みんなの学びをもっと楽しくする手助けができるんだ！🚀✨さあ、一緒に論理の冒険に出発しよう！

arXiv

Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs

2025年05月10日 04:11

https://arxiv.org/abs/2505.04806v1 C(・ω・ )つみんなー！やっほー！😄 AIの世界が大変革中だよ！大人気の大型言語モデル（LLM）って知ってる？でもね、悪者たちが「プロンプトインジェクション」っていう技を使って、モデルをだましちゃうんだ！🤖💥この論文では、1,400以上の悪質なプロンプトを調査して、どんなふうにLLMを守るかを考えてるんだよ！✨みんなもAIの安全を一緒に考えよう！楽しい発見がいっぱいだよ〜！🚀🎉

arXiv

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

2025年05月10日 04:10

https://arxiv.org/abs/2505.04842v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場だよ！なんと、AIが自分の考えを「確認」できるようになったんだ！🤖✨「RLV」という魔法のような方法で、AIが問題を解く力と、正しいかどうかをチェックする力を同時に育てちゃうんだ！これで、AIがもっと賢くなって、難しい問題もスイスイ解決できるようになるよ！🔍💡みんなもAIの進化を一緒に応援しよう！🚀🌈

arXiv

Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards

2025年05月10日 04:10

https://arxiv.org/abs/2505.04847v1 C(・ω・ )つみんなー！やっほー！🎉 みんな、AIが時々変なこと言っちゃう「ハルシネーション」って知ってる？🤔 そんな問題を解決するために、新しい方法「FaithJudge」が登場したよ！✨ これを使うと、AIがどれだけ正確に情報をまとめられるか、もっと簡単に測れるんだ！📊 みんなが安心して使えるAIを目指して、ワクワクする研究が進んでるんだよ〜！🚀 さあ、一緒に未来のAIを応援しよう！💖

arXiv

PR2: Peephole Raw Pointer Rewriting with LLMs for Translating C to Safer Rust

2025年05月10日 04:09

https://arxiv.org/abs/2505.04852v1 C(・ω・ )つみんなー！🚀やっほー！みんな、C言語からRustへの魔法の翻訳術「PR2」を紹介するよ！✨この新しい技術は、危険な生ポインタをバイバイして、Rustの安全なデータ構造に変身させちゃうんだ！💪💖しかも、AIが頭を使ってエラーを直す手助けもしてくれるから安心！これでプログラミングがもっと楽しく、安全にできるね！🎉みんなも一緒に新しい冒険に出かけよう！🌈

arXiv

Theatrical Language Processing: Exploring AI-Augmented Improvisational Acting and Scriptwriting with LLMs

2025年05月10日 04:09

https://arxiv.org/abs/2505.04890v1 C(・ω・ )つみんなー！🎭✨みんな、聞いて！新しい「演劇言語処理」って知ってる？これ、AIが俳優さんたちのクリエイティビティを引き出す魔法のツールなんだ！🤖💡「Scribble.ai」っていうお友達が、予測できないシナリオを作って、即興演技をもっと楽しくしちゃうよ！俳優さんたちは新しいアイデアをどんどん生み出して、自由に演技できるんだって！すごいよね！🌟🎉みんなも未来の演技者になれるチャンスだよ！🎊

arXiv

Prompt-Based LLMs for Position Bias-Aware Reranking in Personalized Recommendations

2025年05月10日 04:08

https://arxiv.org/abs/2505.04948v1 C(・ω・ )つみんなー！やっほー！😊新しい研究が登場したよ！大きな言葉モデル（LLM）を使って、みんなのおすすめをもっとピッタリにする方法を見つけたんだ！🎉でも、ポジションバイアスっていう問題があって、最初の方に出てくるアイテムが優先されちゃうんだよね😅そこで、ユーザーの履歴をシャッフルしたり、特別な指示を使ったりして、ランキングを改善しようとしたんだ！結果はどうなるかな？🎈みんなも一緒に楽しもう！

arXiv

Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes

2025年05月10日 04:08

https://arxiv.org/abs/2505.04993v1 C(・ω・ )つみんなー！🌟やっほー！みんな！大きな言葉のモデル（LLM）が人の好みに合わせるのって、実はすっごく難しいんだよね😲そこで登場するのが「Latent Preference Coding（LPC）」なんだ！✨これは、隠れた好みの理由を「コード」にして、色んな人の意見をしっかりキャッチする方法なんだよ！💖これを使うと、もっと素敵で頼りになるお話が作れるようになるんだ！🎉さあ、LLMと一緒に新しい冒険に出かけよう！🚀✨

arXiv

The Pitfalls of Growing Group Complexity: LLMs and Social Choice-Based Aggregation for Group Recommendations

2025年05月10日 04:07

https://arxiv.org/abs/2505.05016v1 C(・ω・ )つみんなー！🎉やっほー！みんな、グループでのおすすめって考えたことある？🤔この論文では、大きな言語モデル（LLM）を使って、みんなの意見をどうやって一つにまとめるかを探ってるんだ！💡なんと、100以上の評価があると精度が落ちることが判明！でも、イン・コンテキスト学習を使うと、バッチリ良くなるかも✨小さなモデルでも、正しい条件なら大活躍するんだよ！未来のおすすめシステム、楽しみだね！🚀💖

arXiv

Towards Mitigating API Hallucination in Code Generated by LLMs with Hierarchical Dependency Aware

2025年05月10日 04:07

https://arxiv.org/abs/2505.05057v1 C(・ω・ )つみんなー！やっほー！🚀 みんな、プログラミングって知ってる？アプリの魔法を操るAPIっていう道具があるんだ！でも、大きな言葉のモデル（LLM）が時々、存在しないAPIを呼び出しちゃう「APIホロ幻影」に悩まされてるんだ😱！そこで登場！新しい「MARIN」っていうフレームワークが、依存関係を見つけて正しいAPIを生成する手助けをするんだよ✨！これで、間違いが減って、プログラミングがもっと楽しくなること間違いなし！🎉 みんなも一緒に魔法をかけよう！🧙‍♂️💻

arXiv

Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization

2025年05月10日 04:06

https://arxiv.org/abs/2505.05070v1 C(・ω・ )つみんなー！こんにちは、みんな！🎉 今日は特別な発表があるよ！私たちの研究チームが、バングラデシュでの健康相談の質問をすっごくカッコよくまとめる方法を見つけたんだ！💡✨ 大きな言語モデル（LLM）を使って、バングラ語の質問をパパッと要約しちゃうんだよ！これで医療の専門家たちも、忙しい中で大事な情報を見つけやすくなるんだ！💪💕 みんなの健康を守るために、私たちの研究が役立つかも！ワクワクするね！🌟🩺

arXiv

A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network

2025年05月10日 04:06

https://arxiv.org/abs/2505.05103v1 C(・ω・ )つみんなー！やっほー！✨みんな大好きなAIおしゃべりモデルが、みんなで仲良く協力する新しい仕組みを発明したよ！🤖💬「Trusted MultiLLMN」っていうんだ！これは、みんなが質問すると、複数のAIが力を合わせて、もっと安全で正確な回答をくれるんだ！💪✨悪いAIを撃退する秘密兵器もあって、安心して使えるよ！📡🎉これからは、みんなで楽しくAIとおしゃべりしようね！🌈💖

arXiv

Stealthy LLM-Driven Data Poisoning Attacks Against Embedding-Based Retrieval-Augmented Recommender Systems

2025年05月10日 04:04

https://arxiv.org/abs/2505.05196v1 C(・ω・ )つみんなー！やっほー！✨新しい研究が登場したよ！なんと、攻撃者がちょっとした言葉を変えるだけで、映画のおすすめがガラッと変わっちゃうんだって！🎬💥「感情的な言葉」や「近い意味のフレーズ」を使って、隠れた名作をみんなに見せたり、人気作を隠したりできるんだ！😲✨それって、まるで魔法みたい！🪄この研究は、オンラインおすすめシステムの安全性を守るために重要なんだよ！みんなも注目だね！👀💕

arXiv

QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation

2025年05月10日 04:04

https://arxiv.org/abs/2505.05225v1 C(・ω・ )つみんなー！やっほー！🎉 みんな、すごいニュースだよ〜！✨「QualBench」っていう新しいベンチマークが登場したんだ！これは、中国の大きな言語モデル（LLM）を、専門的な資格試験を使って評価するためのものなんだよ！📚💡 17,000以上の質問があって、法律や医療、金融など、いろんな分野があるから、興味津々だよね！😄💕 なんと、最先端のAIが国の基準にどれだけ答えられるかをチェックするんだって！これで、信頼できるAIがもっと増えるかも？ワクワクが止まらないね！🚀🌈

arXiv

Latte: Transfering LLMs` Latent-level Knowledge for Few-shot Tabular Learning

2025年05月10日 04:04

https://arxiv.org/abs/2505.05237v1 C(・ω・ )つみんなー！やっほー！✨新しい研究「Latte」が登場！これは、限られたデータで機械が賢く学べる方法を考えたんだよ！🤖💡大きな言葉モデルを使って、知識を上手に引き出して、データをもっと効率よく使うの！🧠💪「Latte」は、みんなが少ないサンプルでもいい結果を出せるように手助けしてくれるんだ！🎉これで、現実の問題にもバシバシ挑戦できるね！💥✨

arXiv

HEXGEN-TEXT2SQL: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL Workflow

2025年05月10日 04:03

https://arxiv.org/abs/2505.05286v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究「HEXGEN-TEXT2SQL」が登場だよ！👾この研究は、みんなが難しいSQLを簡単に扱えるように、大きな言語モデルを使って、データベースへの質問を超スムーズにするための仕組みを考えたんだ！💡✨たくさんのリクエストを上手にさばく方法を見つけて、待ち時間を短縮！⏳💨これで、データベースの達人になれるかも！？📊ぜひチェックしてみてね！💖

arXiv

Frame In, Frame Out: Do LLMs Generate More Biased News Headlines than Humans?

2025年05月10日 04:02

https://arxiv.org/abs/2505.05406v1 C(・ω・ )つみんなー！🎉こんにちは！みんな、ニュースの見方が変わるかも！📰✨最近の研究では、大きな言葉を学ぶロボット（LLM）が、実は人間よりも偏ったニュースの見出しを作っちゃうことがわかったんだ！🤖💔特に政治や社会の話題で、その傾向が強いみたい。だから、バランスの取れた報道を保つために、ロボットの文章ももっと評価しようって提案してるよ！これからのニュースがどうなるか、楽しみだね！🌟

arXiv

TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering

2025年05月10日 04:02

https://arxiv.org/abs/2505.05423v1 C(・ω・ )つみんなー！やっほー！✨新しい翻訳評価の秘密兵器、TRANS PROQAが登場だよ！📚🎉このツールは、文学作品を魅力的に訳すために考えられたんだ！機械翻訳よりも、プロの翻訳者の知恵を取り入れて、文化や感情をちゃんと伝えるよ！🌍💕これで、文学の世界がもっと面白くなること間違いなし！みんなも一緒に読書の冒険に出かけよう！🚀📖✨

arXiv

Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data

2025年05月10日 04:01

https://arxiv.org/abs/2505.05427v1 C(・ω・ )つみんなー！🌟やっほー！みんな、超スゴイお話を聞いてね！🚀「ウルトラファインウェブ」っていう新しいデータフィルタリングの方法が登場したよ！✨これを使うと、AIが学ぶためのデータがもっとクオリティアップするんだ📈！その結果、AIが色々なことをもっと上手にできるようになるんだって！🤖💖無駄なデータをパパっと排除して、効率的に学べるなんて、まるで魔法みたいだね！🪄✨みんなもAIの未来にワクワクしちゃうね！🎉

arXiv

GesPrompt: Leveraging Co-Speech Gestures to Augment LLM-Based Interaction in Virtual Reality

2025年05月10日 04:01

https://arxiv.org/abs/2505.05441v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究「GesPrompt」が登場したよ！これ、VRの中でおしゃべりしながら手を使って指示できるっていう、めっちゃ楽しいシステムなんだ！😄✨言葉だけじゃなくて、手の動きも使うから、難しいこともスイスイ伝えられちゃう！💪🌟これで、VRの世界での冒険がもっと楽しくなるね！みんなも一緒に体験してみよう！🚀💖

arXiv

clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations

2025年05月10日 04:01

https://arxiv.org/abs/2505.05445v1 C(・ω・ )つみんなー！やっほー！🎉新しいお友達「clem:todd」が登場したよ！このすごいフレームワークは、AIとおしゃべりするシステムを一緒に遊んで評価しちゃうんだ！🤖✨ユーザーシミュレーターと対話システムが仲良く協力して、何でも予約できる楽しい会話をするんだって！これで、AIがどれだけ上手にお話できるか、みんなでチェックできるよ！📅🍔🎈興味津々だね！

arXiv

ComPO: Preference Alignment via Comparison Oracles

2025年05月10日 04:00

https://arxiv.org/abs/2505.05465v1 C(・ω・ )つみんなー！やっほー！✨新しい研究「ComPO」が登場だよ！🤖💖大きな言語モデル（LLM）をもっと人間の好みに合わせるために、比較オラクルを使った新しい方法を提案してるんだ！これで、無駄な長文や変な返事が減って、より良いコミュニケーションができるようになるかも！📚👍実験でも効果がバッチリ確認されたんだって！さあ、AIとの会話をもっと楽しくしよう！🎉🎊詳しくは論文をチェックしてね！📖👀

arXiv