ग्रेट स्केल पर नामों, कंपनियों और टेक्स्ट को समानता एपीआई के साथ मिलाना एक सूची भेजें और सर्वश्रेष्ठ मेल (और विश्वास स्कोर) प्राप्त करें - वास्तविक दुनिया की टंकण त्रुटियों, बड़े अक्षरों, स्थानों और संक्षिप्तियों के लिए डिज़ाइन किया गया मिनटों में एक ही कॉल में लाखों रिकॉर्ड संसाधित करें
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://pr213-testing.zylalabs.com/api/11895/similarity+api/22607/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
साइन अप करने के बाद, प्रत्येक डेवलपर को एक पर्सनल API एक्सेस की असाइन की जाती है, जो अक्षरों और अंकों का एक यूनिक संयोजन होता है, जिसका उपयोग हमारे API एंडपॉइंट तक पहुंचने के लिए किया जाता है। प्रमाणीकरण के लिए समानता API के साथ बस अपने बेयरर टोकन को Authorization हेडर में शामिल करें।
| हेडर | विवरण |
|---|---|
Authorization
|
आवश्यक
होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें।
|
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
अग्रणी कंपनियों का भरोसा
समानता एपीआई एक उच्च गति की धुंधली मिलान और डुप्लिकेट हटाने वाली एपीआई है जो अव्यवस्थित और वास्तविक जीवन के डेटा के लिए डिज़ाइन की गई है यह आपको लगभग डुप्लिकेट रिकॉर्ड को पहचानने और एंटिटीज को मेल कराने में मदद करती है भले ही मान बिल्कुल न मिलें- टाइपो, पूंजीकरण के अंतर, गायब विराम चिह्न, स्पेसिंग के मुद्दे, संक्षेपाक्षर और शब्दों के क्रम में छोटे परिवर्तन
अपनी खुद की धुंधली मिलान पाइपलाइन बनाने और समायोजित करने के बजाय आप अपने स्ट्रिंग (या रिकॉर्ड) को एपीआई में भेजते हैं और आपको भरोसेमंद समानता स्कोर के साथ मेल मिलते हैं आम आउटपुट में मेल खाने वाले जोड़े (उदाहरण के लिए “Apple” ⇔ “apple inc.”), समानता स्कोर और संरचित परिणाम शामिल होते हैं जिन्हें डेटा सफाई वर्कफ़्लो, सीआरएम, ईटीएल कार्य और विश्लेषण पाइपलाइनों में एकीकृत करना आसान होता है
सामान्य उपयोग के मामले:
सूचियों को डुप्लिकेट हटाना: डेटा सेट के भीतर डुप्लिकेट ढूंढना (सभी से सभी का मिलान) और संभावित डुप्लिकेट जोड़े लौटाना
मास्टर सूची के खिलाफ मेल खाना: एक आने वाली सूची को एक कैनोनिकल सेट (सूची से मास्टर) से मेल करना
सीआरएम और ग्राहक डेटा की स्वच्छता: लीड्स/खातों/कंपनियों को साफ करना जहां डुप्लिकेट रिपोर्टिंग और संपर्क में हस्तक्षेप करते हैं
एंटिटी का समाधान और रिकॉर्ड का लिंक: स्रोतों के माध्यम से वास्तविक दुनिया की एक ही एंटिटी के लिए संदर्भों को जोड़ना
टीम इसे क्यों उपयोग करती है:
शुरू से ही अव्यवस्थित टेक्स्ट के साथ काम करता है (हर चरम मामले के लिए कोई मैनुअल नियम नहीं)
श्रेणीबद्धता और थ्रेशोल्ड के लिए समानता स्कोर (आप चुनते हैं कि कितना सख्त होना है)
स्केलिंग और ऑटोमेशन के लिए बनाया गया (पाइपलाइनों में काम करने के लिए डिज़ाइन किया गया है न कि केवल एक बार के स्क्रिप्ट में)
डिडुप्लिकेट एंडपॉइंट मेल खाने वाले स्ट्रिंग्स के युग्म, समानता स्कोर और वैकल्पिक डिडुप्लिकेटेड परिणामों को समाहित करने वाला एक JSON ऑब्जेक्ट लौटाता है आउटपुट को स्ट्रिंग युग्म, इंडेक्स युग्म या डिडुप्लिकेटेड स्ट्रिंग्स के रूप में स्वरूपित किया जा सकता है निर्दिष्ट कॉन्फ़िगरेशन के आधार पर
प्रत्युत्तर डेटा में मुख्य क्षेत्र "स्थिति" (सफलता या त्रुटि को इंगित करता है) और "उत्तर_डेटा" शामिल हैं, जिसमें उपयोगकर्ता की अनुरोध के अनुसार प्रारूपित परिणाम होते हैं, जैसे मिलान जोड़े या डेडुप्लिकेटेड स्ट्रिंग्स
उपयोगकर्ता "config" ऑब्जेक्ट में पैरामीटर समायोजित करके अनुरोधों को अनुकूलित कर सकते हैं जैसे "similarity_threshold" मेल की कठोरता के लिए "remove_punctuation" पूर्व प्रसंस्करण के लिए और "output_format" वांछित परिणाम संरचना चुनने के लिए
प्रतिक्रिया डेटा परिणामों के एक सरणी के रूप में व्यवस्थित है जहां प्रत्येक प्रविष्टि एक मैच या डिडुप्लिकेटेड स्ट्रिंग से मेल खाती है आउटपुट प्रारूप के आधार पर प्रविष्टियों में मूल स्ट्रिंग्स इंडेक्स और समानता स्कोर शामिल हो सकते हैं जिससे कार्यप्रवाह में आसान एकीकरण की सुविधा मिलती है
विशिष्ट उपयोग के मामलों में ग्राहक सूचियों को डिडुप्लिकेट करना मुख्य सूची के खिलाफ रिकॉर्ड का सामंजस्य स्थापित करना सीआरएम डेटा को स्वच्छ करना और विभिन्न डेटा स्रोतों के बीच एंटिटी समाधान करना शामिल है ताकि डेटा अखंडता और सटीकता सुनिश्चित हो सके
डाटा सटीकता को उन्नत फजी मिलान एल्गोरिदम के माध्यम से बनाए रखा जाता है जो टाइपो और केस के अंतर जैसे सामान्य डाटा मुद्दों को ध्यान में रखते हैं एपीआई को गंदे डाटा को प्रभावी ढंग से संभालने के लिए डिज़ाइन किया गया है जिससे विश्वसनीय मिलान के परिणाम सुनिश्चित होते हैं
स्वीकृत पैरामीटर मानों में "similarity_threshold" (0 से 1), "remove_punctuation" (बूलियन), "to_lowercase" (बूलियन), "use_token_sort" (बूलियन), और "top_k" (पूर्णांक या "all") शामिल हैं ये पैरामीटर उपयोगकर्ताओं को मिलान प्रक्रिया को उनकी विशिष्ट आवश्यकताओं के अनुसार अनुकूलित करने की अनुमति देते हैं
यदि डिडुप एन्डपॉइंट आंशिक या खाली परिणाम लौटाता है तो उपयोगकर्ताओं को गुणवत्ता समस्याओं के लिए इनपुट डेटा की जांच करनी चाहिए जैसे कि अत्यधिक डुप्लिकेट या बहुत कम समानता थ्रेशोल्ड समायोजित करना समानता_थ्रेशोल्ड या इनपुट सूची की समीक्षा करना परिणामों में सुधार करने में मदद कर सकता है